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5 引言 


本 系列 教程 展开 讲解 Al 所 需 的 数学 基础 知识 ， 力 求 
以 最 直观 最 易 懂 的 方式 给 帮助 大 家 营 握 Al 依赖 的 效 


学 知识 最 小 子 集 。 本 教程 内 容 履 盖 线性 代数 与 矩阵 
论 ， 概 率 与 统计 ， 信 息 论 ， 微 积分 与 最 优化 几 个 核 
心 的 知识 板块 。 


教程 地 址 
点 击 查看 完整 教程 学 习 路 径 
内 容重 世 


1. 线 性 代 效 与 答 阵 论 


Ts 光 口 
线性 代数 & 算 阵 宝生 


习 http:Wwww.showmeaitechy 


本 囊 泛 击 
4 | 人 


概率 与 统 计 


人 心 http:www.showmeaitechy/ 


| 
信息 论 
oOee 


他 h 各 匡 /wwwEiowmeailtecH ShowMeA1 研究 中 心 


@@ 
微 积 分 及 最 优化 Te 


h 盘 py/vRR showmeaitech/ ShowNMeht 研究 由 心 


ShowMeAl 系 列 教程 推 荐 


图 解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

图 解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 
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1. 标 量 (Scalar ) 
一 个 标量 就 是 一 个 单独 的 数 。 只 具有 数值 大 小 ， 没 


有 方向 (部 分 有 正 负 之 分 ) ， 运 算 遵循 一 般 的 代数 
法 则 。 


但 昌 ee 号 玫 


直人 仙 汪 口 必 


线性 代数 与 矩阵 论 质量 mm 时 间 ( 速率 1 电阻 温度 | 到 


”一 个 标量 吉 是 一 个 单 竹 的 数 。 讨 量 只 有 大 小 ， 没 有 方向 (部分 有 正 负 ) ， 亲 和 
5 重 。 一 息 的 代数 法 则 。 


中 httpWwww.showmeaitechy 
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。 一 般 用 小 写 的 变量 名 称 表 示 。 
。 质量 m m m、 速 率 vvv、 时 间 ttt 电阻 p 
ho p 等 物理 量 ， 都 是 数据 标量 。 


2. 回 量 (Vector ) 


向 量 指 具 有 大 小 和 方向 的 量 ， 形 态 上 看 就 是 一 列 
数 。 


同和 全 四 


区 了 | 
一 | :| 一 ai22h 9] 。 可 以 相向 旺 看 作 空 间 中 的 有 和 综 
段 ， 向 量 的 每 个 组 成 元 素 ， 对 应 和 
-| 人 。cneeseroorxx2 


Yector 娩 向 量 指 具有 大 小 和 方向 的 量 。 数 据 的 向 量化 表示 ， 可 以 提高 Al 算法 的 和 代 效 
率 和 计算 效率 。 


| 加 生 过 | 管 舍 ShowMieal 研 究 中 必 
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。 通 弟 赋 予 向 量 粗 体 小 与 的 名 称 ; 手写 体 则 在 字 
母 上 加 一 个 向 右 的 箭头 


。 向 量 中 的 元 素 是 有 序 排 列 的 ， 通 过 索引 可 以 确 
定 每 个 元 系 。 


。 以 下 两 种 方式 ， 可 以 明确 表示 向 量 中 的 元 素 时 
(注意 用 方 括号 ) 。 


。 可 以 把 向 量 看 作 空间 中 的 有 向 线段 ， 向 量 的 每 
个 组 成 元 素 ， 对 应 向 量 在 不 同 的 坐标 轴 上 的 投 
影 长 度 。 


Al 中 的 应 用 : 在 机 器 学 习 中 ， 曲 条 数据 样本 的 表征 
都 是 以 向 量化 的 形式 来 完成 的 。 向 量化 的 方式 可 以 
帮助 Al 算法 在 和 欠 代 与 计算 过 程 中 ， 以 更 高 效 的 方式 
完成 。 


3. 和 炬 阵 ( Matrix ) 


答 阵 是 二 维 数组 ， 其 中 的 每 一 个 元 素 被 两 个 宗 引 确 
定 。 答 阵 在 机 器 学 习 中 至 天 重要 ， 无 处 不 在 。 


征 的 妆 根 焦 ， 吓 一 个 mx 的 年 陈 。 [CAR WE SR 1] 


会 对 予 矩阵 粗 体 大 写 的 变量 名 称 。 


Al 中 的 应 用 : 样本 以 矩阵 形态 表示 : m m m 条 数 
据 / 样 本 ，n n n 个 特征 的 数据 集 ， 就 是 一 个 m xn 
m ximes n mxn 的 和 矩阵 。 


4. 张 量 (Tensor ) 


几何 代数 中 定义 的 张 量 ， 是 基于 向 量 和 答 阵 的 推 
广 。 


。 标量 ， 可 以 钢 为 零 阶 张 量 
。 回 量 ， 可 以 钢 为 一 阶 张 量 
。 算 阵 ， 可 以 视 为 二 阶 张 量 


标量 向 量 矩阵 矩阵 数组 ” 己 
havhe 0 阶 张 量 1 阶 张 量 阶 张 量 3 阶 张 量 型 
田 
线性 代数 与 矩阵 论 。 所 导 
7 了 2|16 吕 

8 3- | 中 2 


，，， 深度 学 习 中 ， 大 部 分 的 数据 和 权重 都 是 以 张 量 的 形态 公 馆 的 ， 后 续 的 所 有 运 


划 和 优化 算法 也 都 是 基于 台 进 行 的 。 [CR RE GONGR 和 AR 


片 数 据 集 
4 阶 张 量 样本， 高 度 ， 宽 度 ， 通 道 ) 


攻 3 了 视频 


5 阶 张 量 (样本 ， 帧 速 ， 高 度 ， 宽 度 ， 通 道 ) 


7ensor 个 包含 多 张 图 片 的 数据 集 用 4 阶 张 量 表 示 。 其 中 ， 样 本 表示 图 片 在 数据 集中 
的 编号 ， 通 道 通 常 取 3， 表 示 彩 色 图 片 3 个 
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。 图 片 以 乱 阵 形态 表示 : 将 一 张 彩色 图 片 表示 成 
一 个 Hx WxcCHnNimes W Ntimes C HxWxC 
的 三 阶 张 量 ， 其 中 H H H 是 高 ，W W W 是 
宽 ，C C C 通 常 取 3， 表 示 彩 色 图 3 个 颜色 通 
道 。 

。 在 这 个 例子 的 基础 上 ， 将 这 一 定义 继续 扩展 ， 
即 : 用 四 阶 张 量 ( 样本， 高度， 宽度 ， 通 道 ) 
表示 一 个 包含 多 张 图 片 的 数据 集 ， 其 中 ， 样 本 
表示 图 片 在 数据 集中 的 编号 。 


油 


。 用 五 阶 张 量 ( 样本， 帧 速 ， 高 度 ， 宽 
道 ) 表示 钢 频 。 


攻 , 通 


Al 中 的 应 用 : 张 量 是 帝 上 度 学 习 中 一 个 非常 重要 的 概 
念 ， 大 部 分 的 数据 和 权重 都 是 以 张 量 的 形态 存储 
的 ， 后 续 的 所 有 运算 和 优化 算法 也 都 是 基于 张 量 进 
行 的 。 


5. 汇 数 (Norm ) 


范 数 是 一 种 强化 了 的 距离 概念 ; 简单 来 说 ， 可 以 把 
“ 范 数 。 理解 为 “距离 。 


在 数学 上 ， 范 数 包 括 “ 向 量 学 数 。 和 “ 乱 阵 泡 
效 a 


。 向 量 范 数 (Vector Norm ) ， 表 征 向 量 空间 中 
向 量 的 大 小 。 向 量 空间 中 的 向 量 都 是 有 大 小 
的 ， 这 个 大 小 就 是 用 范 数 来 度量 。 不 同 的 范 数 
都 可 以 来 度量 这 个 大 小 ， 就 好 比 米 和 尺 都 可 以 
来 度量 远近 一 样 。 


和 矩阵 范 数 (Matrix Norm ) ， 表 征 和 矩阵 引起 变 
化 的 大 小 。 比 如 ， 通 过 运算 AX=B 
\boldsymbol{Ajboldsymbol{X} = 
\boldsymbolB} AX=B， 可 以 将 向 量 X 
\boldsymbol{X} X 变 化 为 B \boldsymbol{B)} 
B， 和 欠 阵 范 数 就 可 以 度量 这 个 变化 的 大 小 。 


请 国 向 旦 各 个 元 过 的 绝对 值 之 和 (例如 县 哈 频 距离 、 最 小 绝对 误差 加 

|lelh = leil 十 le 二 ma| 十 十 | 四 | 让 到 更 

线性 代数 与 矩阵 论 向 量 各 个 元 素平 方 和 的 开 方 (例如 欧 氏 距离 ) 
1/2 


四 
1 | 


lela = (le 十 lzaP 十 los 十 十 lm 站 及 


在 机 器 学 习 中 ，L 范 数 和 12 范 数 很 常见 ， 比 如 ?评估 准则 的 计算 了 7 损失 男 
数 中 用 于 限制 横 型 复 杂 度 的 正则 化 项 ) 竺 [CRR RE EUONOURRA 


向 量 范 效 的 计算 : 


对 于 p - \mathrm{p} - p- 范 数 ， 如 果 x=[x1,x2， 
” ,Xn]Txboldsymbol{xj=\left[x_{1)， x_ {2)， 

\cdots, x_{njrightlj^AAmathrm{T}} Xx=[x1,Xx2,…Xxn]T ， 

那么 向 量 x \boldsymbol{x} x 的 p - \mathrm{p} - p 


- 范 效 就 是 外 xlp=(Ix1lp+|x21p+…+|xnl 
p)1TpxhboldsymbolxN {p}=xeftAleftlx_{ 人 TANright| 
^{p}+leftlx_{2}Nrightl^A{p}+cdots+xleftlx_{nyright| 
^{fpjNright)^ffrac{1TiPp}} xlp=(x1Ip+lx2lp+… 上 +|xn 
|p)p1。 


L1 学 数 : ||1xll1=|x11+|x21+|xX31+…+|x 
n |||boldsymbolfx_{}=Neftlx_{1yNrightl+Neftl 
X_{2}Nrightl+xleftlx_{3yrightl+cdots+xleftlx_{nyNrightl 
|xl1 =|x1|+|x2|+|x3l+…+|xn| 


x \boldsymbol{x} x 向 量 各 个 元 素 的 绝对 值 之 
和 。 


。L1 范 数 有 很 多 的 名 字 ， 例 如 我 们 熟悉 的 曼哈顿 
距离 、 最 小 绝对 误差 等 。 


L2 学 数 : ‖xll2=(|x112+|x212+|X312+… 
+|xnl2)1/2\boldsymbolxN {2}=\Ieft(left| 
X_{1yrightl^A{2}+xleftlx_{2}rightl^{2}+Nleft| 
X_{3}Nrightl^{2}+MXcdots+leftlx_{nrightl^A{2}Nright)A{1 
/ 2} |xll2=(|x1|2+|x2|2+|x3l2+…+|xnl2)1/2 


“ p=2\mathrm{p} =2 p=2 时 ， 就 是 L2 范 数 ， 是 


x \boldsymbol{x} x 向 量 各 个 元 素平 方 和 的 开 
为 5 


。[L2 范 数 是 我 们 最 常用 的 范 数 ， 欧 氏 距离 就 是 一 
种 L2 范 数 。 


Al 中 的 应 用 : 在 机 器 学 习 中 ，L1 和 范 数 和 L2 学 数 很 党 
见 ， 比 如 “评估 准则 的 计算 。 、 “损失 浮 数 中 用 于 
限制 模型 复杂 度 的 正则 化 项 等 。 


6. 特 征 分 解 〈(Eigen-decomposition ) 


将 数学 对 象 分 解 成 多 个 组 成 部 分 ， 可 以 找到 他 们 的 
一 些 属性 ， 或 者 能 更 高 地 理解 他 们 。 例 如 ， 整 数 可 
以 分 解 为 质 因 数 ， 通过 12 =2 x 3 x 3 12=2 times 
3 \times 3 12=2x3x3 可 以 得 到 “12 的 倍数 可 以 被 3 
整除 ， 或 者 12 不 能 被 5 整除 。 。 


同样 ， 我 们 可 以 将 “ 答 阵 。 分 解 为 一 组 “特征 
向 量 。 和 “特征 值 。9 ， 来 发 现 和 矩阵 表示 为 数组 
元 素 时 不 明显 的 函数 性 质 。 特 征 分 解 (Eigen- 
decomposition ) 是 广 泥 使 用 的 和 矩阵 分 解 方式 
2 


将 5 算 阵 4 分 解 为 一 组 "特征 向 量 1 和 了 特征 值 J， 来 发 现 矩 阵 表示 为 数组 元 素 
时 不 明显 的 函数 性 质 。 


| ie 这 簿 舍 ShowMeAl 研 究 中 心 | 


。 特征 向 量 : 方 阵 A \boldsymbol{A} A 的 特征 向 
量 ， 是 指 与 A \boldsymbol{A} A 相 乘 后 相当 于 
对 该 向 量 进行 缩放 的 非 零 向 量 , 即 Av= 入 v 
\boldsymbol{Anu =\ambda nu Av=A 和 v。 


。 特征 值 : 标量 入 ambda 入 被 称 为 这 个 特征 向 量 
对 应 的 特征 值 。 


使 用 特征 分 解 去 分 析 答 阵 A \boldsymbolA} A 时 ， 
得 到 特征 向 量 v nu v 构 成 的 矩阵 Q_ \boldsymbolQ} 
Q 和 特征 值 构成 的 向 量 A\boldsymbol\Lambda } 

和 人 ,我们 可 以 重新 将 A \boldsymbolA} A 写 作 : A = 
QAQ-1boldsymbol{Al = \boldsymbolQ|} 
\boldsymbolALambdal \boldsymbol{Q}^{-1} 
A=QAGQ-=-1 


7. 奇 异 值 分 解 (Singular Value 


Decomposition ，SVD ) 


和 窍 阵 的 特征 分 解 是 有 前 提 条 件 的 。 只 有 可 对 角 化 的 
和 矩 阵 ， 才 可 以 进行 特征 分 解 。 实 际 很 多 矩阵 不 满足 
一 条 件 这 时 候 怎 么 办 呢 ? 


将 答 阵 的 “特征 分 解 。 进行 推广 ， WA 
称 为 “矩阵 的 奇异 值 分 解 。 的 方法 ， 即 将 一 
普通 答 阵 分 解 为 “奇异 向 量 。 和 “奇异 值 。 。 
通过 奇异 值 分 解 ， 我 们 会 得 到 一 些 类 似 于 特征 
分 解 的 信息 。 


线性 代数 与 矩阵 论 4 


SAEUBr Vane | 将 矩阵 的 特征 分 解 进行 推广 ， 得 到 史 E 阵 的 言 导 值 分 解 方 法 ， 即 将 一 个 普通 
矩阵 介 解 为 了 夸 异 向 量 1 和 T 夸 导 值 J 。 


2 sj/ 丰 
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将 和 矩 阵 A \boldsymbol{A} A 分 解 成 三 个 矩阵 的 乘积 
A=UDYVYV-1boldsymbolAl =\boldsymbol{U) 
\boldsymbol{D} \boldsymbol{V}^A{-1) A=UDV-1。 


。 假设 A \boldsymbol{A} A 是 一 个 m* n mx*n 
mx*n 和 矩阵 ， 那 么 U \boldsymbolU} U 是 一 个 m 
*x m mx*m mxm 和 矩 阵 ，D D D 是 一 个 m * n mx*n 
mx*n 和 矩 阵 ，V V V 是 一 个 n* n ns*n nxn 和 矩阵 。 


*。 UVD'boldsymbol{U} boldsymbol{V} 
\boldsymbol{D} UVD 这 几 个 矩 阵 都 拥有 特殊 的 
结构 : 


O UNboldsymbolHU) U 和 V \boldsymbol{V} 
V 都 是 正 交 和 矩 阵 ， 德 阵 U \boldsymbol{U} 
U 的 列 向 量 被 称 为 左 奇 异 向 量 ， 德 阵 V 
\boldsymbolV)} V 的 列 向 量 被 称 右 奇异 向 
量 。 

O _D \boldsymbol{D} D 是 对 角 和 矩阵 (注意 ， 
D \boldsymbol{D} D 不 一 定 是 方 阵 ) 。 对 
角 珑 阵 D \boldsymbolD} D 对 角 线 上 的 元 
素 被 称 为 矩阵 A \boldsymbol{A} A 的 奇异 
值 。 


Al 中 的 应 用 : SVD 最 有 用 的 一 个 性 质 可 能 是 拓展 答 
阵 求 敌 到 非 方 答 阵 上 。 而 且 大 家 在 推荐 系统 中 也 会 
见 到 基于 SVD 的 算法 应 用 。 


8.Moore-Penrose 广 义 逆 / 伪 逆 
(Moore-Penrose Pseudoinverse ) 


假设 在 下 面 问 题 中 ， 我 们 想 通 过 短 阵 A 


\boldsymbolA} A 的 左 闭 B \boldsymbolB} B 来 求解 
线性 方程 : A x = y \boldsymbol{A} x=y Ax=y， 等 
式 两 边 同 时 左 乘 左 逆 B 后 ， 得 到 : x = By x= 
\boldsymbol{B} y x=By。 是否 存 在 唯一 的 映射 将 A 
\boldsymbolA} A 映 射 到 B \boldsymbolB} B ， 取 决 
于 问题 的 形式 : 


。 如 果 和 阵 A \boldsymbol{A} A 的 行 数 大 于 列 
数 ， 那 么 上 述 方程 可 能 没有 解 ; 


。 如 果 德 阵 A \boldsymbol{A} A 的 行 数 小 于 列 
数 ， 那 么 上 述 方程 可 能 有 多 个 解 。 


Moore-Penrose 伪 逆 使 我 们 能 够 解决 这 种 情况 ， 纶 
阵 A \boldsymbol{A} A 的 伪 逆 定义 为 : 


A+=lim a 一 0(ATA+al)-1TAT 
\boldsymbol{A}^A{+}=Mim _{a Nightarrow 
ONIeftwAboldsymbol{A^ 人 CT) boldsymbol{A}+Aalpha 
\boldsymbolfight)^(-1T} boldsymbolAA 人 T A 
+=3 一 0lim(ATA+ol)-1AT 


和 的 逆 下 了 1 47 
Ai 


罗汉 二 到 人 9 -pv 避 

线性 代数 与 抢 阵 论 各 证 
矩阵 .了 D、I 是 矩阵 及 奇异 值 分 解 后 得 到 的 矩阵 局 

对 角 和 矩 阵 也 的 人 北 D+ 是 其 非 恶 元 素 取 倒 之 后 再 转 置 得 到 的 “外 


Moore-Aenrose 向 一 个 矩阵 的 广义 逆 矩 阵 与 最 小 二 乘 密切 相关 : 左 逆 对 应 干 亡 定 问题 ( 非 一 至 
Pseuwaomverse 二 方程 ) 的 最 小 二 乘 解 ， 右 逆 对 应 干 名 定 问题 (二 天 方 程 7 内 引 


中 http:Wwww.showmeaitechy 


但 是 计算 伪 逆 的 实际 算法 没有 基于 这 个 式 子 ， 而 是 
使 用 下 面 的 公 了 五 : 


A+=UD+VTboldsymbolH{A}^{+}= 
\boldsymbol{U} \boldsymbol{D}^A{+} boldsymbol{V} 
^A{T A+=UD+VT 


。 和 矩 阵 U \boldsymbolHU} U、 D \boldqsymbol{D} 
D 和 VT'\boldsymbolfV}A{fT} VT 是 矩阵 A 
\boldsymbolA)} A 奇 异 值 分 解 后 得 到 的 答 阵 ; 


。 对 角 珑 阵 D \boldsymbol{D} D 的 伪 闭 D + 
\boldsymbol{D}^A{+} D+ 是 其 非 零 元 素 取 倒 之 后 
再 转 置 得 到 的 。 


9. 音 用 的 距离 度量 


在 机 器 学 习 里 ， 大 部 分 运算 都 是 基于 向 量 的 ， 一 份 
效 据 集 包含 n 个 特征 字段 ， 那 每 一 条 样本 就 可 以 表示 


为 n 维 的 向 量 ， 通 过 计算 两 个 样本 对 应 向 量 之 间 的 距 
离 值 大 小 ， 有 些 场景 下 能 反映 出 这 两 个 样本 的 相似 
程度 。 还 有 一 些 算法 ， 像 KNN 和 K-means， 非 常 依 
赖 距离 度量 。 


设 有 两 个 nn n 维 变量 : 
A=[x11,x12， ,X1n]lTA=[x (11)}， 
X_{12}X_{1m ] AT) A=[x11,x12, ,xfTn]T 


B=[x21,Xx22， ,X2n]TB=[x {21} 
,….X_{2n} ] ^ 人 T}) B=[x21,Xx22,…,X2n]T 


X_{22]} 


一 些 常用 的 距离 公式 定义 如 下 : 


和 
加 旺 哈 顿 距 亏 了， 一 SN、 jz ， _ xz， | 余 纺 相似 度 本 Ze 
人生 号 | 下 | ne 5 才 国 VZEzV Zi 
可 
线性 代数 与 矩阵 论 欧 氏 距离 由 2 一 (ok 一 zt 这 明 距 元。 di2 = 人 四 Zah) 吧 
zeloean Dglance 各 LN GUN -| 


Di/stamce 


5 httpWwwwshowmeaitecl 


hy 


责 未 mn 本 
本 片 
忍 万 砍 | _JBccarU 


一 maz(lzik 一 oa) 
Cepysper 271Ce 


0 


赤 卡 得 距 厦 几 .二 1 7J(4 本 二 愉 吕 下 一 Im 台 


Cs 从 信 ShowMeA1 研 究 中 必 


1 ) 曼哈顿 距离 ( Manhattan Distance ) 


二 - import numpy as np 
Vectorl = mn [1,2,3]) 
vector2 = np. 〈([4,5,6]) 


线性 代数 与 矩阵 论 


manhaton_dist np , (np . (vector1-vector2) ) 
《" 曼 ，manhaton_dist) 


人 丈 
Marmpattar 他 4= [azl 
二 dl2 二 > |zt 一 zaz| 也 = [zauaz, .zan] 

st217CE ji 一 1 | 人 起 索 | 微 售 ShowMeAI 研 究 中 心 | 


已 httpwww.showmeaitechy 


曼哈顿 距离 也 称 为 城市 街区 距离 ， 数 学 定义 如 下 : 


d12=2k=1nlx1k-x2kld({l2)= 
\Sum_{k=1}^(n] 人 xx {1k)-x_ {2k) | })d12=k=12 nlx1k 
-X2k| 


曼哈顿 距离 的 Python 实现 : 


moon ais 柄 癌 
全 
TYECtLOTF2 三 TD arrav0l4 5 6|]) 


mannacnEaonme 上 三 于 记 SUmlnosacslvec erIEvecepr2) ) 


pzint (" 曼 哈 顿 距离 为 "，manhaton_dqist) 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坊 


2 ) 欧 氏 距离 (Euclidean Distance ) 


线性 代数 与 矩阵 论 


过 三 | 区 全 号 二 9 光 
EUc/aear 于 [ein zl ZIm 
DA 上 》 (ZIK 和 Z21)2 有 二 03 各 冯 | 
SEE3ATCe 
人 AI | 过 | 知 售 ShowMeAl 研 究 中 心 | 


局 http/www.showmeaitechy 


欧 氏 距 离 其 实 就 是 L2 范 数 ， 数 学 定义 如 下 : 


d12=2k=1n(x1k-x2k)2d1{12)= 
\sdqrtsum_{fk=1) nx_{f1k -x_{2k) ) 人 人 2) ) d12 
=k=1 >n(x1k-x2k)2 


欧 氏 距离 的 Python 实现 : 


用 几 oionsieioubinoxw ie 
GECLOTT 和 训 有 aa 一 3) 
GCCLOE2 和 PR aavw0 5 6 


EUuaualstL=nEssac lnE sunlvecLorcTevectec2l **2) ) 


Przint (" 欧 式 距离 为 "，eua_qist) 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坊 


3 ) 闵 氏 距离 ( Minkowski Distance ) 


ShawRe mu 


胆 生 ee 全 下 


多 有 twY 


12 TIK 一 ZK) 2 
1 
加 4= [ea zi zi] 了 7 
旺 由。 三 >》 (zu 一 zak)z 瑟 = [zan zz .zan] 了 
j1 | 全 这 | 党 售 ShowMehl 研 究 中 心 
oOwmeaitech/ 


从 严格 意义 上 讲 ， 闵 可 夫 斯 基 距 离 不 是 一 种 距离 ， 
而 是 一 组 距离 的 定义 : 


dl12=2k=1n(x1k-x2k)ppd(i2}= 


sqrt[pjfsum_ 人 tk=1T An 区 XIk -xf2k yp} 
d12=pk=1>n(x1k-x2k)p 


实际 上 ，, 当 p = 1 p=1 p=1 时 ， 就 是 曼哈顿 距离 ; 当 
p = 2 p=2 p=2 时 ， 就 是 欧式 距离 。 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坑 


4 ) 切 比 雪 夫 距 离 ( Chebyshev Distance ) 


LS 


线性 代数 与 矩阵 论 


Chepyshmnei 


4=[zilzl..， 
届 呈 al> 一 IT20Z(|Z1 SR 228|) 瑟 三 -人 222 3 
317C 


徽 售 ShowMeAl 研究 中 心 | 


CC httpy 


切 比 雪 夫 距 离 就 是 无 穷 范 数 ， 数 学 表达 式 如 下 : 


d12=max(lx1k-x2kl)d({12)=max(| 
X_{1Kk}-x_{2k} |) d12=max(|x1Kk-Xx2kl) 


切 比 雪夫 距离 的 Python 实现 如 下 : 


芋 m 人 OF 忆 DmDy as 三 疡 
CLOTTT 二 从 记 有 aa 0 
WEGCEOT2 人 DEC 5 6 


CEOTESE 二 从 全 有 和 aX ED ESIOAeCEeETwECE2 
Print (" 切 比 雪 夫 距 离 为 "， cb_qist) 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坊 


5 ) 余弦 相似 度 (Cosine Similarity ) 


余 纺 相似 度 的 取 值 范围 为 [-1,1],， 可 以 用 来 衡量 两 个 


向 量 方向 的 差异 : 


。 夹 角 余弦 越 大 ， 表 示 两 个 向 量 的 夹 角 越 小 

。 当 两 个 向 量 的 方向 重合 时 ， 夹 角 余 弦 取 最 大 值 
和 

。 当 两 个 向 量 的 方向 完全 相反 时 ， 夹 角 余 弦 取 最 
小 值 -1。 


线性 代数 与 矩阵 论 


机 器 学 习 中 用 这 一 概念 来 衡量 样本 向 量 之 间 的 差 
异 ， 其 数学 表达 式 如 下 : 


cos6=ABIAIIBI=>2k=1nx1kx2k2k= 
1nx1k22k=1nx2k2cosheta=fracfABI| 
Al1IB|) =\fracCsum _{k=1)^(n}{x_{ 人 kx _{2k}) }} 
fsqrtWsum_{k=1}^(nj{x_ (1KA(2} 
\sqrtfsum_{k=1}^(n}{x_{2k}^(2}) ) } } cos6=IAIIBIAB 
=》k=1nx1k2 


> Kk=1nx2k2 


> k=1nx1kx2k 


夹 角 余 弦 的 Python 实现 : 


世 GE 忆 旺 TDmoyas 硬 们 记 
GCCLOTT 站 疡 aa 2 


WCGCF2 DaEESY [4 06) 


GOSESnm 三 本 太 记 大 各 辣 (入伍 全 EEOE1 有 会 甩 攻 SC 短 弓 ) 昂 屋 而 瑟 本 上 1d9.no 
pzint (" 余 弦 相 似 度 为 "， cos_sim) 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 杭 


6 ) 汉 明 距离 (Hamming Distance ) 


国 
线性 代数 与 矩阵 论 
权 本 
am1THTB 四 下 4= [entzl ea 
7 dl? 一 》 (zx 四 Zaopk) 瑟 = [zal, zaa; .zan] 
Dhs 妇 /ce 于 =1 | 人 虑 过 | 做 们 ShowMeAl 研 究 中 心 | 


候 http:/wwwshowmeaitechy 


汉 明 距离 定义 的 是 两 个 字符 串 中 不 相同 位 数 的 数 
目 。 例 如 ， 字 符 串 '1111f "与 !1001' 之 间 的 汉 明 距离 为 
2。 信 息 编 码 中 一 般 应 使 得 编码 间 的 汉 明 距离 尽 可 能 


的 小 。 


d12=2k=1n(x1k 昌 xx2k)d{12)}= 
\Sum_{k=1}^(n} Neft ( x_{1kl \oplus x_{2kjNight ) 
d12=k=1>2n(x1k 昌 x2kK) 


汉 明 距离 的 Python 实现 : 


Woienceaioimox ER 

加 三 而 局 司 间 下 天国 
ie 
hanm_ qis = np.count_nonzero (al=Db) 


Pzint (" 汉 明 距 离 为 "，hanm_qis) 


琢 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坑 


7 ) 杰 卡 德 系 数 (Jaccard Index ) 


所 ， 杰 卡 德 距离 中 
4 妃 Jaccara Dis 妇 11ce 放 
线性 代数 与 和 矩阵 论 下 本 


Il4Ua 吕 
4 
4 = [llzl2 zim]7 
Jaccaral aex 
7C4 司 = 二 D 遇 ea 
| Cs 过 | 党 信 ShewMeAt 研 究 中 心 | 


中 httpWwww.showmeaitechy 


两 个 集合 AAA 和 B B B 的 交集 元 素 在 AAA 和 BB 


B 的 并 集中 所 占 的 比例 称 为 两 个 集合 的 杰 卡 德 系 
数 , 用 符号 J(A,B ) J(A,B) J(A,B) 表 示 ， 数 学 表达 
式 为 : 


J(A,B)=|AnBlIAUBIJCA,B) =Vracf| A\cap 
B| JAxcup B |} J(A,B)=|AuBIIAnBI| 


杰 卡 德 相似 系数 是 衡量 两 个 集合 的 相似 度 的 一 种 指 
标 。 一 般 可 以 将 其 用 在 衡量 样本 的 相似 度 上 。 


前 往 我 们 的 在 线 编程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 术 


8 ) 杰 卡 德 距离 (Jaccard Distance ) 


线性 代数 与 矩阵 论 


与 杰 卡 德 系数 相反 的 概念 是 杰 卡 和 
为 : 


引 时 


距离 ， 其 定义 式 


JoO=1-J(A,B)=|AUBI-|IAnBIIAUBI 
J_fsigmal =1-J(A,B ) =\frac{| Acup B | -| ANcap B 


|JAcupB1)Jo=1-J(A,B)=|IAUuBIAUuUBI-IAnB| 


杰 卡 德 距离 的 Python 实现 : 


TimBOT 七 
Vecl = 


Vec2 = 


Vecl = 


Vec2 三 


up=np.dqouble (np.bitwise_and((vec1l 


Qqown=np.dqouble (np.bitwise_ or (vecLl 


numpy as np 
得 遇 angcmReanaomi(iOE0R5 


JoEREEoioloigEiLelei 全 内 0 司 5 


masarravIyvecl nn 


站 四 RSarFEawec EL) 


Jjaccard_ qis =1-(up/dqown ) 


人 


前 往 我 们 的 在 线 编 程 环境 运行 代码 : http:/ 
blog.sShowmeai.tech/python3-compiler/ 坊 


ShowMeAlI 相 天 文章 推荐 


图 解 线性 代数 与 息 阵 论 


。 图解 信 息 论 
。 图解 微 积分 与 最 优化 


!= Vec2) np.bi 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编 程 : 从 入 门 到 精通 系列 教程 
。 图解 效 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


Sh@Gw Me Al 


司 解 Al 数学 基础 | 概率 与 统计 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123123147 


ShowMeAl ”国人 


人 究 中 心 国 几 sa 国 2xs 国 so 语 国 十. 谢 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/83 
本 文 地 址 : http:/www.showmeai.tech/article- 
detail/163 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


1. 概 率 论 及 在 Al 中 的 使 用 


概率 (Probability ) ， 反 映 随机 事件 出 现 的 可 能 性 
大 小 。 事 件 A A A 出 现 的 概率 ,用 P(A) P(A) P(A) 


表示 。 


概率 论 〈Probability Theory ) ， 是 研究 随机 现象 数 
量规 律 的 数学 分 支 ， 度 量 事物 的 不 确定 性 。 


在 人 工 智能 领域 ， 概 率 论 有 广泛 的 应 用 : 中 
人 借助 干 概率 方法 设计 算法 : 人 /基干 概率 与 统计 进行 祯 测 : 
概率 与 统计 人 概率 型 模型 朴素 贝 叶 斯 算法 = 神经 网 络 中 的 softmax 
疡 
Propapity 孚 反映 随机 事件 出 现 的 可 能 性 大 小 。 禄 府 论 是 研究 随机 现 条 数量 规律 的 数 
7Nmpeory 介 支 ， 度 量 事物 的 不 确定 性 。 
中 http:Wwww.showmeaite' 


机 器 学 习 大 部 分 时 候 处 理 的 都 是 不 确定 量 或 随机 
量 。 因 此 ， 相 对 计算 机 科学 的 其 他 许多 分 支 而 言 ， 
机 器 学 习 会 更 多 地 使 用 概率 论 。 很 多 典型 的 机 器 学 
习 算法 模型 也 是 基于 概率 的 ， 比 如 朴素 贝 叶 斯 


CNaive Bayesian ) 等 。 
在 人 工 智能 领域 ， 概 率 论 有 广泛 的 应 用 : 


。 可 以 借助 于 概率 方法 设计 算法 (概率 型 模 
型 ， 如 朴 款 贝 叶 斯 算法 ) 。 

可 以 基于 概率 与 统计 进行 预测 分 析 (如 神 
经 网 络 中 的 softmax ) 。 


2.[ 逢 机 变量 ( Random 


Variable ) 


简单 地 说 ， 随 机 变量 是 指 随机 事件 的 数量 表现 ， 是 
可 以 “随机 = 地 取 不 同 值 的 “变量 。。 通 音 ， 用 大 
与 子 母 来 表示 随机 变量 本 身 ， 而 用 市 数字 下 标的 小 
与 子 母 来 表示 随机 变量 能 够 取 到 的 值 。 


。 例 如 ，X X X 为 随机 变量 ，x1x ff)xi、x2 
x_{2}) x2、xix 全 xi 是 随机 变量 X X X 可 能 的 
取 值 。 


ED3 

- 地 
在 一 定 区 间 内 变量 取 值 在 一 定 区 间 内 变量 取 值 [全 

概率 与 统计 | 为 有 限 个 (或 可 数 个 ) | 为 无 限 个 (或 数值 无 法 一 一 列举 ) 


如 ， 某 地 区 某 年 的 出 生 人 口 数 


如 ， 某 地 区 健康 成 人 另 性 的 体重 舍 


玫 型 随机 灾 昌 4 和 和 了 连续 随机 灾 唱 4。 训 O 古风 中 


Aamaomm Varap/e 了 随机 变量 指 随机 事件 的 数量 表现 ， 是 可 以 随机 地 取 不 同 值 的 变量 ， 分 为 "高 
殷 
echy/ 


个 httpwww.showmeait: 


随机 变量 可 以 分 为 “离散 型 随机 变量 。 和 “连续 
随机 变量 。 : 


出 


。 离散 型 随机 变量 (discrete random 
variable ) : 即 在 一 定 区 间 内 变量 取 值 为 有 限 
个 〈 或 可 数 个 ) 。 例 如 ， 某 地 区 某 年 的 出 生 人 
口 数 。 


。 连 续 型 随机 变量 ( continuous random 


variable ) : 即 在 一 定 区 间 内 变量 取 值 为 无 限 
个 〈 或 数值 无 法 一 一 列举 出 来 ) 。 例 如 ， 某 地 


义 男性 健康 成 人 的 体重 值 。 


3. 逢 机 轴 量 (Random 
Vector ) 


地 Z1(6) 
| | CE = 
概率 与 统计 z 人 的 一 | 去 
0) ET : 
人 将 几 个 随机 变量 按 顺 序 放 在 一 起 ， 组 成 向 量 的 形式 ， 就 是 随机 向 量 。 随 机 变 
量 是 一 维 随机 向 量 的 特殊 情况 。 


忆 | 加 汪 索 | 向 售 ShowMeAI 研 究 中 心 


将 几 个 随机 变量 按 顺序 放 在 一 起 ， 组 成 向 量 的 形 


陈 ， 就 是 随机 向 量 。 


在 样本 空间 全 部 都 一 样 的 情况 下 ， 一 个 n n n 维 的 随 
机 向 量 是 x(5) 一 =(xX1(5)Xx2(5)…Xxn(5)) 
X \Overrightarrow{(Xxi)}=\leftwAbegin{farray}{c} x_{1} 


(xi)NXx_ {2}Gxih NAcdots N\X_{fn}(xi) 
\endfarray}right) X( 旨 


x1(8x2(5…xnt) 咱 | 


其 中 ，5 Xi 5 就 是 样本 空间 中 的 样本 点 。 随机 变量 
是 1 维 随机 向 量 的 特殊 情况 。 


4. 概 率 分 布 (Probability 
Distribution ) 


广义 上 ， 概 率 分 布 用 于 表述 随机 变量 取 值 的 概率 规 
律 。 或 者 说 ， 给 定 菏 随机 变量 的 取 值 学 围 ， 概 率 分 
布 表示 该 随机 事件 出 现 的 可 能 性 。 


狭义 地 ， 概 率 分 布 指 随机 变量 地 概率 分 布 亢 数 ， 也 
称 累 积分 布 函 数 (Cumulative Distribution 
Function ，CDF ) 。 


[ES 员 使 用 分 布 列 模 述 离散 型 随机 变量 的 概率 分 布 
如 单 点 分 布 `.0- | 分 布 ` 几何 分 布 、 二 项 分 布 、 泊 松 分 布 


概率 与 统计 
全 人 Rssrcolaik 过 二 型 随机 灾 量 的 慨 率 介 布 


如 正 态 分 布 、 均 匀 分 布 、 指 数 分 布 t 分布、 分布、 经 本 


和 


Propapmty 


人 机 器 学 习 中 一 个 典型 的 概率 分 布 应 用 ， 是 分 美 问 题 中 很 多 模型 最 终 会 预 估 得 
Drs 态 wziom 


人 
5。 者。 到 笠 本 属于 每 个 类 出 的 概率 构成 1 个 梳 率 向 纺 表征 类 


离散 型 随机 变量 的 概率 分 布 : 


。 使 用 分 布 列 描述 离散 型 随机 变量 的 概率 分 布 ， 
即 给 出 离散 型 随机 变量 的 全 部 取 值 及 每 个 值 的 


。 常见 的 离散 型 随机 变量 的 分 布 有 : 单 点 分 布 、 
0-1 分 布 、 几 何 分 布 、 二 项 分 布 、 泊 松 分 布 


< 十 o 


如 果 随 机 变量 X X X 的 分 布 画 数 为 F ( x ) F(X) 
F(x)， 存 在 非 负 函 数 f( x )f (x) f(X) 使 对 于 任意 实数 
xxx 有 F(x)=|--xf(t)dtF(x)=\int {-Minfty} 
^{x] ftt) d t F(X)= 广 =xftt)dt， 则 称 X X X 为 连续 型 随 
机 变量 ， 其 中 国 数 f( x ) fx) fx) 称 为 X X X 的 概率 
密度 函数 。 


常见 的 连续 型 随机 变量 的 分 布 有 : 正 态 分 布 、 均 匀 
分 布 、 指数 分 布 、 [t E t- 记分 布 、 F ee F- F-- 分 布 、 
52 - \Xi^{2}- 52- 分 布 等 。 


机 器 学 习 中 一 个 典型 的 概率 分 布 应 用 ， 是 分 类 
器 题 中 ， 很 多 模型 最 终 会 预 估 得 到 样本 属于 每 
个 类 别 的 概率 ， 构 成 1 个 概率 向 量 ， 表 征 类 别 


5. 条 件 概率 (Conditional 
Probability ) 


和， 本 和 A 发 生 时 ，B 发 生 的 概率 
人 4 局 PC4B) 国 

概率 与 统计 P(B14) = 广 届 
博 


Comortoma/ 


PropapMty 


史 
全 条 件 概率 : 在 一 个 事件 已 经 发 生 的 条 件 下 ， 另 一 事件 发 生 的 概率 。 
二 
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很 多 情况 下 我 们 感 兴趣 的 是 ， 某 个 事件 在 给 定 其 它 
事件 发 生 时 出 现 的 概率 ， 这 种 概率 叫 条 件 概率 。 


给 定 AAA 时 BBB 发 生 的 概率 记 为 P(B1A) P(B 
mid A) P(BIA)， 概 率 的 计算 公式 为 : P(BIAI)= 
P(AB)P(A)PBxmidA)=\frac{fP(A B)HP(A)} 
P(BIA)=P(A)P(AB) 


6. 贝 叶 斯 公 陈 (Bayes: 
Theorem ) 


先 看 看 什么 是 “ 先 验 概率 "和 "后 验 概率 ”， 以 一 个 例子 
来 说 明 : 


先 验 概 率 : 某 疾 病 在 人 群 中 发 病 率 为 0.196 ， 
那 某 人 没有 做 检验 之 前 ， 预 计 患 病 率 为 P( 患 

病 ) = 0.1 % Ptext { 患 病 )=0.1 \% P( 患 

病 )=0.1%， 这 个 概率 就 叫做 了“ 先 验 概率 5 。 


后 验 概率 : 该 疾病 的 检测 准确 率 为 95%， 即 该 
病 患者 检测 显示 阳性 的 概率 为 95% ( 检测 显示 
阴性 的 概率 为 5% ) ， 即 P( 显示 阳性 | 患 病 ) 
= 95 % Ptext { 显示 阳性 | 患 病 ))=95\% P( 显 
示 阳 性 | 患 病 )=95% ; 或 者 说 未 患 病 的 检测 
者 ， 检 测 结果 显 示 阴 性 的 概率 为 95%， 检 测 显 
示 阳 性 的 概率 为 5%。 那 么 ， 检 测 显 示 为 阳性 
时 ， 此 人 的 患 病 概率 P ( 患 病 | 显示 阳性 ) 
Ptext { 患 病 | 显示 阳性 )) P( 患 病 | 显示 阳性 ) 
就 叫做 “后 验 概 率 " 。 


了 < 

岛 
PUB 四 = PUB)  PL41B)PCB) Ce PUB | 力 = P(41Bi).P(Bi) 认 
概率 与 统计 POD FJ \Y7 Ze P(41B) .PCBD 呈 


合计 < 


PP(4) = 六 Pd | BD) PDB) 
语 ! 


Bares 7jpeorem 入 风 叶 斯 公式 贯穿 了 机 器 学 习 中 随机 问题 分 析 的 全 过 程 。 从 文京 分 类 到 概 广 因 


模型， 其 基本 介 炎 部 是 风 叶 央 人 式 。 [CR RE ANNA | 


贝 叶 斯 公式 : 贝 叶 斯 提供 了 一 种 利用 “ 先 验 概 率 。 
计算 “后 验 概 率 。 的 方法 : 


“条 件 概率 公式 : P(BIA) =P(AB)PI(AI) 
P(B \mid A)=\frac{P(A B)JP(A)} 
P(BIA)=P(A)P(AB) ，P(AIB)=PL(AB)PI 
B) P(AAmid B)=\frac{P(A B)JP(B)} 
P(AIB)=P(B)P(AB) 


。 由 条 件 概率 公式 变换 得 到 乘法 公式 : P(AB) 
-P(BIA)P(A)=P(AIB)P(B)PA 
B)=P(B \mid A) P(A)=P(A \mid B) P(B) 
P(AB)=P(BIA)PUA)=P(AIB)P(B) 


。 将 条 件 概率 公式 和 乘法 公式 结合 : P(B1A ) = 
P(AIB)'P(B)P(A)PBmid A)= 

Yrac{fP(A mid B) \cdqot P(B)JP(A)) 
P(BIA)=P(AJP(AIB)`P(B) 


。 引入 全 概率 公式 : P(A) = > i-1NPI(UAIB 
站 :PUBi) P(A)-=\sum_{fi=1}A{N} PNeft(A \mid 
B_fwight) xcdot PNeft(B fijvight) 
P(A)=2i=1NP(AIBi).P(Bi) 


。 将 全 概率 代入 P(B1A)PBAmid A) P(BIA) ， 
可 以 得 到 贝 叶 斯 公式 : P(BilA)=PIU(AIBIi 
)`:P(Bi)2i=1NP(AIBi):P(Bi)P 
Meft(B_ ff \mid Avight)=\frac{PNeft(A \mid 


B_ 人 fwight) xcdot PNeft(B_{irightbifvsum_{i= 儒 
AN} PNeft(A mid B_{ijvight) \cdot P 
Meft(B_{ivighb} P(BilA)=i=1NP(AIBi).P(Bi 
)P(AIBi)-P(Bj) 


上 述 例子 的 计算 结果 : 

P( 患 病 | 显示 阳性 ) =P( 显示 阳性 | 患 病 ) P ( 
患 病 ) P ( 显示 阳性 ) =P( 显示 阳性 | 患 病 ) P ( 
患 病 ) P ( 显示 阳性 | 患 病 ) P( 患 病 ) +P( 显示 
阳性 | 无 病 ) P( 无 病 ) =95% 大 0.19% 95% 大 
0.1%+59%6 大 99.95% = 1.86 9% begin{faligned) 
Ptext { 患 病 } \mid \text { 显示 阳性 ) &= 
racfP(text { 显示 阳性 | 患 病 }) P(text { 患 病 ))} 
{fPQtext { 显示 阳性 ))}N&=\rac{fP(text { 显示 阳性 | 
患 病 ) P(text { 患 病 )}{P(text { 显示 阳性 | 患 病 )) 
Ptext { 患 病 )+P(text { 显示 阳性 | 无 病 ) } Ptext { 
无 病人 下 &=\frac{95 \% * 0.1 \%}{95 \% * 0.1 \%+5 
\%* 99.9 \%}=1.86 \% \endfaligned} P( 患 病 | 显示 
外 性 )=P( 显示 阳性 )P( 显示 阳性 | 患 病 )P( 患 病 ) 
=P( 显示 阳性 | 患 病 )P( 患 病 )+P( 显示 阳性 | 无 

病 ) P( 无 病 )P( 显示 阳性 | 患 病 )P( 患 病 ) 

=959%e 大 0.1%+55% 大 99.9%e959% 大 0.1%=1.869%6 


贝 叶 斯 公式 贯穿 了 机 器 学 习 中 随机 问题 分 析 的 全 过 


程 。 从 文本 分 类 到 概率 图 模型 ， 其 基本 分 类 都 是 贝 
叶 斯 公式。 


期 望 、 方差 、 协 方差 等 主要 反映 数据 的 统计 特 
征 。 机 器 学 习 的 一 个 很 大 应 用 融 是 数据 挖掘 
等 ， 因 此 这 些 基本 的 统计 概念 定 很 有 必 妥 叶 
握 。 另 外 ， 像 后 面 的 EM 算法 中 ， 就 需要 用 到 
期 望 的 相关 概念 和 性 质 。 


7. 期 蛙 (EXxpectation ) 


在 概率 论 和 统计 学 中 ， 数 学 期 望 是 试验 中 每 次 可 能 
结果 的 概率 乘 以 其 结果 的 总 和 。 期 望 是 最 基本 的 数 
学 特征 之 一 ， 反 映 随机 变量 平均 值 的 大 小 。 


概率 与 统计 so- 人 nom 
xD) : 二 取信 对 应 的 概率 介 Fn : 概率 密 度 画 有 


[72 ， 和 w 浊 电 呈 试验 中 每 人 可 能 结果 的 概率 乘 以 其 结果 的 总 和 。 基 所 是 最 基本 的 
。 洗 。 人 和， 反 上 风灾 人 的 大 小 
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假设 X X X 是 一 个 离散 型 随机 变量 ， 其 可 能 的 取 值 
有 {x1,x2，.. n AIeftMx_{11}, x_ {2}, Ndots， 

x_{njvighty Re n}， 各 取 值 对 应 的 概率 取 值 
为 PUxk) Pyeft(x_{kyvight P(xk) ，k = 1 ,2 


下 


n k=1, 2, Mdots, n k=1,2,...,n。 其 数学 期 望 被 定义 
为 : 

EUX)=2k-=1nxkP(xk)E0XJ=sum {kc=1 
Afn} x_{k} PNeft(x_{kyvight) E(X)=k=1Y nxkP(xk) 


假设 x x x 是 一 个 连续 型 随机 变量 ， 其 概率 密度 函数 
为 f( x ){f(x) fx)， 其 数学 期 望 被 定义 为 : 


E(x)=j -wo+wxf(x)dxE(x)=Nint {- 
\boldsymbolfomegal}^{+boldsymbol{w}} xf(x) d X 
E(X)=|w+Wxf(X)dx 


8. 方 差 (Variance ) 


在 概率 论 和 统计 学 中 ， 样 本 方差 ， 是 各 个 样本 数据 
分 别 与 其 平均 数 之 差 的 平方 和 的 平均 数 。 方差 用 来 
衡量 随机 变量 与 其 数学 期 望 之 间 的 偏离 程度 。 


(| 
2 亚 好 zjaz 
心 表示 期 望 值 FoD: 山 可 
Vanamce 本 方差 ， 是 各 个 样本 数据 分 别 与 其 平均 数 之 差 的 平方 和 的 平均 数 。 广 差 用 
衡量 随机 变量 与 其 数学 期 望 之 间 的 仿 高 人 


离散 型 : ( HH \mubh 表 示 期 望 ) 


D(X)=2k=1n(xk-ub)2D(X)=\sum {k=1} 
Afn} NMeft(x_{kjAmuvrightAf2} D(X)=k=1 2 n(xk- 由 2 


一 个 快速 计算 方差 的 公式 〈 即 平方 的 期 望 威 去 期 望 
的 平方 大 


D(X)=E{[Xx-E(X)]2}=E(X2)-[E(XI) 
] 2 D(X)=ENeftM[X-E(X)]^{2}vighty=E 
Meft(XA{2}ight)-[E(X)]^{2} D(X)=E{[X-E(X)]2} 
=E(X2)-[E(XJ]2 


连续 型 : ( H mu hb 表示 期 望 ) 
D(x)=|(x-bh)2f(x)dxD(x)=\int(x-\mu)^{2} 


f(x) d x D(X)=|(x-b 由 2f(X)dx 


9. 协 方差 (Covariance ) 


Cou( 忆 了 ) = 吾 [ 苞 一 吾 ( 居 )][ 交 一 吾 (2)] = 吾 (XY) 一 吾 ( 巧 ) 吾 ( 帮 ) 


| 


概率 与 统计 党 用 3 
等 式 本 
vara1ce 


差 被 用 于 衡量 两 个 随机 变量 X 和 Y 之 间 的 总 体 误 差 。 可 以 表示 两 个 变量 的 
适 英 是 否 一 致 。 
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ay 协 方差 被 用 于 衡量 两 个 随机 

量 XXX 和 YYY 之 间 的 总 体 误 差 。 期 望 值 分 别 
为 E[X]E[X]E[X 与 E[Y]E[Y]EIY] 的 两 个 实 随 
机 变量 X X X 与 Y YY 之 间 的 协 方差 为 : 


Cov(X,Y)=E[Xx-E(X)][IY=-E(Y)]=E( 

XY)-E(X)E(Y)CovXY) =E{[X-ECX)LY- 

E(Y)]} =E(XY)-E(X)ECY) COV(X,Y)=E[X-E(X)][Y 
-E(Y)]=E(XY)-E(X)E(CY) 


以 下 是 几 个 弟 用 等 式 : 
Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y， 
X) COVv(X,Y)=Cov(Y,X) 
Cov(X,X)=DI(X)Cov(X,X)=D(X) 
Cov(X,X)=D( 久 ) 
D(X+Y)=DI(X)+D(Y)+2Cov(X,YI) 
D(X+Y)=D(X)+D(Y)+2 Cov(X, Y) D(X 


+Y)=D(X)+D(Y)+2Cov(X,Y) 
Cov(X,Y)=E(XY)-E(X)E(Y)Cov(X， 
Y)=E(X Y)-E(X) E(Y) Cov(X,Y)=E(XY)-E(X)E(Y) 


10. 相 天 系数 (Correlation 
Coefficient ) 


协 方差 


Cou( 筷 切 Cou(X 也) 过 


概率 与 统计 ” “5 VDVTD 
标准 差 总 


Coe7yjcrernt 


线性 相关 程度 ， 下 用 民生 和 疏 仙 人 人 


Comreaton 全 相关 系数 是 最 早 由 统计 学 家 卡尔 .皮尔 逊 设计 的 统计 指标 ， 用 以 研究 变量 之 间 
妇 
chy 
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相 天 系数 是 最 早 由 统计 学 家 卡尔 .皮尔 逊 设计 的 统计 
指标 ， 用 以 研究 变量 之 间 线 性 相关 程度 。 相 关系 数 
有 多 种 定义 方式 ， 较 为 常用 的 是 皮尔 了 进 相 天 系数 。 
从 协 方差 中 会 得 到 引申 ， 就 是 天 联系 数 , 即 : (0 
\sigma 0 是 标准 差 ) 


p=Cov(X,Y)OGXxOoyrho=xfracfCov(X,Y)} 
fsigma _{x} sigma _{y}} p=axayCOoVv(X,Y) 
这 个 公式 还 有 另外 的 一 个 表达 形式 : 


p=Cov(X,Y)D(X)D(Y)Nho = 
rac{fCov(X,Y)jf\sqrtfD(X)} \sqrttD(Y)}} p=D(XI) 
D(Y) 


他 努 利 分 布 上 E 正太 分布 ， 潜 呆 
ergotN DUO 二 Armal DKInDuUUon 并 NS 上- 
概率 与 统计 工 二 0 本 曾 四 上 
ERROR 二 LNDTT DDN0 上 一 : 
一 
2 0 
三 顶 分 布 站 人 
而 珊 届 大 局 品 而 站. Eponemlial DRUnDu | | 
DAs 三 力 wzom 
站 泊 松 分 布 出 离散 型 随机 变量 ”连续 型 随机 变量 sa 
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1 ) 伯 努 利 分 布 (Bernoulli 
Distribution ) 〈 离散 型 ) 


在 概率 论 和 统计 学 中 ， 伯 努 利 分 布 也 叫 0-1 分 布 ， 
单个 二 值 型 离散 随机 变量 的 分 布 。 


后 


AT | 


1 E 
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。 概率 分 布 函 数 : P(X=k)=pk(1-p)1- 
k P(X=k)=p^{k}(1-pP)A(1-k) P(X=k)=pk(1-p)1-k 
。 期 望 : E(X)= PE(X)=pE(X)=p 

。 方差 : D(X) =p(1-p)D(X)=p(1-p) 
D(X)=P(U1-p) 


2 ) 几何 分 布 (Geometric 


Distribution ) 〈 离散 型 ) 


在 概率 论 和 统计 学 中 ， 几 何 分 布 是 离散 型 概率 分 
布 ， 数 学 符号 为 X~ G(p) Xsim G(p) X~G(p)。 其 
定义 为 : 在 nn n 次 伯 努 利 试验 中 ， 试 验 k k k 次 才 
得 到 第 一 次 成 功 的 机 率 〈( 即 前 k - 1 k-1 k-1 次 皆 失 
败 ， 第 k k k 次 成 功 的 概率 ) 


司 


概率 与 统计 


| 


| 代入 这 | 往 售 ShowMeAi 研 究 中 心 


。 概率 分 布 函数 : P(X=k)=(1-p)k-1p 
P(X=k)=(1-pP)A{k-1} P P(X=k)=(1-p)k-1p 


。 期 望 : E(X) = 1pE(X)=Vracf1p} E(X)=p1i 
。 方差: D(X) = 1- pp2D(X)=Yracf1-p} 


{p^{(2}} DUX)=p21-p 
3 ) 二 项 分 布 (Binomial 
Distribution ) 〈 离散 型 ) 


在 概率 论 和 统计 学 中 ， 二 项 分 布 即 重复 n n n 次 伯 努 
利 试验 ， 各 次 试验 之 间 都 相互 独立 ， 并 且 每 次 试验 


中 只 有 两 种 可 能 的 结果 ， 而 且 这 两 种 结果 发 生 与 否 
相互 对 立 ， 数 学 符号 为 X~B(n,p)X~B(n,p) 
X~Btn,p)。 


芽 

人 2 Binomial Distribution PDF 到 | 

se 上 

概率 与 统计 P( 开 = 有 = Ch 一 茹 "二 多 
1WTOATT7HB 


旺 有 X) = 加 DO = np(1- 癌 
| 过 | 党 舍 ShowMeAi 研 究 中 心 


如 果 每 次 试验 时 ， 事 件 发 生 的 概率 为 p p p， 不 发 生 
的 概率 为 1-p1-p1-p, 则 nnn 次 重复 独立 试验 
中 发 生 k k k 次 的 概率 为 : P(X=k)=Cnkpkt( 
1-p)n=-kPX=k)=C (nk pkG-p)A(n-k) 
P(X=k)=Cnkpk(1-p)n-k 


。 期 望 : E(X)= npE(X)=np E(X)=np 
* 方差 : D(X)=np(1-p)DX)=np(1-p) 
D(X)=np(1-Pp) 
4 ) 泊 松 分 布 (Poisson Distribution ) 
(离散 型 ) 


在 概率 论 和 统计 学 中 ， 泊 松 分 布 是 一 种 统计 与 概率 
学 里 常见 到 的 离散 概率 分 布 ， 用 于 描述 某 段 时 间 内 


事件 具体 的 发 生 概率 ， 数 学 符号 为 X~ T (入 ) X~\pi 
Meft (ambda Vight ) X~m(A)。 


加 


一 ja20， 


概率 与 统计 


攻 (2Z= 入 DOX) = 入 


| 人 慷 这 | 签 售 ShowMeAl 研 究 中 心 | 
httpywwwsi 


泊 松 分 布 的 参数 入 ambda 入 表示 单位 时 间 ( 或 单位 
面积 ) 内 随机 事件 的 平均 发 生 次 数 ， 其 概率 分 布 函数 
为 : P(X=k)=( 入 )ke- 入 k!IP(X=k)= 
rac{(ambda )^A{kj e^{-lambdaljj{fk 由 P(X=k)=kl 

(入 )ke- 入 


。 期 己 : E(X)= 入 E(X)=\ambda E(X)= 入 
。 方 差 : D(X)= 入 D(X) = lambda D(X)= 入 


例如 ， 寺 医院 平均 每 小 时 出 生 2.5 个 婴儿 ( 
入 =2.5 ) ， 那 么 接 下 来 一 个 小 时 ， 会 出 生 几 个 


婴儿 ? 


。 没 有 婴儿 出 生 (〈 k = 0 k=0 k=0 ) 的 概率 为 : P 
(Xs0OT = 25010082 
P(X=0)=\frac{(2.5)^A{O} \cdot e^{-2.5}}{0 ! 
vapprox 0.082 P(X=0)=01!2.5)0.e-2.5<0.082 


。 有 1 个 婴儿 出 生 (〈 k = 1 k=1 k=1 ) 的 概率 为 : 
P(X=1)=(2.5)1:e-2.511=0.205 
P(X=1)=\frac{(2.5)^A{1} cdot e^{-2.59} 侍 全 
vapprox 0.205 P(X=1)=1!(2.5)1.e-2.5=0.205 


。 有 2 个 婴儿 出 生 (〈 k = 2 k=2 k=2 ) 的 概率 为 : 
P(X=2)=(2.5)2:e-2.521=0.257 
P(X=2)=\frac{(2.5)^{2} \cdot e^{-2.5}1{2 全 
vapprox 0.257 P(X=2)=21!(2.5)2.e-2.5=0.257 


K 0 1 2 
p 0.082 0.205 0.257 


通 弟 ， 柏 松 分 布 也 叫 等 待 概率 ， 是 一 种 比 二 项 
分 布 应 用 场景 更 为 丰富 的 概率 模型 ， 在 数控 、 
电 商 优化 中 也 经 常 能 见 到 它 的 影 


5 ) 正 态 分 布 (Normal Distribution ) 
(连续 型 ) 

在 概率 论 和 统计 学 中 ， 正 态 分 布 又 叫 高 斯 分 布 
(Gaussian Distribution ) ， 其 曲线 呈 钟 型 ， 两 头 
低 ， 中 间 高 ， 左 右 对 称 因 其 曲线 呈 钟 形 。 数 学 符号 
为 X~N(H,O2)X=-NNeftAmu, sigma^{2}Night) 


X~N(H,O2)。 


baonz 


| 这 | 濑 信 ShowMeAl 研 究 中 心 | 


若 随机 变量 X X X 服 从 一 个 数学 期 望 为 H Amu Hh、 方 
差 为 o 2 \sigma^{(2} 0a2 的 正 态 分 布 ， 其 概率 分 布 浮 
数 :f(x)=12maoe-(x-H)22a2f(x)= 
racf1ifsdqrt{2 \pi) \sigmaj e ^{Afrac{( xmUA^A{2}} 人 2 
\Sigma^{2)}} fx)=2T 


ale 
-20G2(X-H)2 


。 期望 : E(X ) = 由 E(X)=\mu E(X)=b 
。 方差: D (X ) = oa 2 D(X)=\sigmaA{2} D(X)=02 


6 ) 均匀 分 布 (Uniform Distribution ) 
(连续 型 ) 
在 概率 论 和 统计 学 中 ， 均 匀 分 布 也 叫 答 形 分 布 


二 
是 对 称 概 率 分 布 ， 在 相同 长 度 间隔 的 分 布 概率 是 等 
可 能 的 。 


均匀 分 布 由 两 个 参数 aa a 和 b b b 定 义 ， 数 学 符号 
为 X~U(a,b)X-U(a,b)X-Ulab) (其 中 ，a 
a 为 数 轴 上 较 小 值 ，b b b 为 数 轴 上 较 大 值 ) 。 


中 


ie 


息 肝 6 本 
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其 概率 作 布 函 数 : $f(x)=\racf1}{fb-al , a 


。 期望 : E(X)=a+b2E(X)=\racfa+b}{2} 
E(X)=2a+b 
。 方 差 : D (XI) 


=(b-a)212D(X)= frac{(b- 
aj)^{2j 夺 2 DUO)=1 


2(b-a)< 


7 ) 指数 分 布 (Exponential 
Distribution ) (连续 型 ) 


在 概率 论 和 统计 学 中 ， 指 数 分 布 与 其 他 分 布 的 最 大 
不 同 之 处 在 于 ， 随 机 变量 X X X 指 的 是 不 同 独立 事 
件 发 生 的 时 间 间 隔 值 ， 时 间 越 长 事件 发 生 的 概率 指 
效 型 增 大 ( 尸 小 )， 数 学 符号 为 X~E( 入 ) 
X~E(Alambdal) X~E( 和 )。 


有 | 


| 合用 tw 


指数 分 布 的 参数 入 ambda 入 表示 单位 时 间 ( 或 单位 
面积 ) 内 随机 事件 的 平均 发 生 次 数 ， 其 概率 分 布 诅 数 
为 :f(Xx)= 入 e-A 入 x,Xx>0f(x)=A\ambdae^{- 
Mambda x}, X\ge 0 f(X)= 和 ee- 入 X,X>0 


。 期 望 : E(X ) = 1 入 E(X)=\racf1}fambdal 
E(X)=A1 

。 方差: D (X ) = 1 入 2 D(X)=\fracf1] 
fambda^{2}} D(X)=A21 


在 我 们 日 常 的 消费 领域 ， 通 常 的 目的 是 求 出 在 某 个 
时 间 区 间 内 ， 会 发 生 随机 事件 的 概率 有 多 大 。 如 : 
银行 窗口 服务 、 交 通 管理 、 火 车 票 售票 系统 、 消 费 
市 场 研 究 报告 中 被 广 沁 运 用 。 


例如 : 某 医 院 平 均 每 小 时 出 生 2.5 个 婴儿 ( 
入 =2.5 ) 。 如 果 到 下 一 个 婴儿 出 生 需要 的 间隔 
时 间 为 t (即时 间 t 内 没有 任何 婴儿 出 生 ) 。 


。 间 隔 15 分 钟 ( X = 1 4 X=\fracf1}{4} X=41 ) 后 


才 有 婴儿 出 生 的 概率 为 : f(14)=2.5e-2.5 
:14=0.9197fQAfracf1){4}) = 2.5 e^{-2.5 \cdot 
rac{1i{4} approx 0.9197 f(41)=2.5e-2.5.41 
<0.9197 

间隔 30 分 钟 ( X = 1 2 X=\frac{f1}{2} X=21 ) 后 
才 有 婴儿 出 生 的 概率 为 : f{(12)=2.5e-2.5 
:12=0.7163fAfracf1){2)) = 2.5 e^{-2.5 \cdot 
rac{1i{2}} approx 0.7163 f(21)=2.5e-2.5.21 
<0.7163 
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ETITTIERCTETDE 
正 态 分 布 X~ Y(o) jz) 一 
概率 与 统计 本 


了 
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DZ() 
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12. 拉 格 朗 日 乘 子 法 
(Lagrange Multiplier ) 


在 求解 最 优化 问题 中 ， 拉 格 朗 日 乘 子 法 (Lagrange 
Multiplier ) 和 KKT (Karush Kuhn Tucker ) 条 件 是 
两 种 最 常用 的 方法 。 


在 机 器 学 习 的 过 程 中 ， 我 们 经 常 遇 到 在 有 限制 的 情 
部下 ， 最 大 化 表达 式 的 问题 。 如 : 
maxf(x,y)s.t.g(x,y)=0maxf(xy) st. 
quad g(x,y)=0 maxf(x,y ) st.g(X,y)=O 


此 时 我 们 可 以 构造 L(x,y, 入 )=f(x,y) -入 (g( 
x,y)-c)LXynNambda )=f(x,y) -=- ambda \left ( 
g(x,y) -C Vight ) L(X,y, 入 =f(x,y)-A(g(X,y)-c)， 其 中 入 
ambda 入 称 为 拉 格 朗 日 乘 子 。 接 下 来 要 对 拉 格 朗 日 
函数 L(x,y, 入 )L(xyNambda ) L(xy 入 ) 求 导 ， 令 
其 为 0， 解 方程 即 可 。 


以 下 是 图 文 解释 : 


站 
| -7 < 
一 ee 人 Sky =e 
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红线 标 出 的 是 约束 g (x, y ) = cg(x,y)=Cc 
g(xy)=c 的 点 的 轨迹 。 蓝 线 是 f(x, y )f(x,y) 
f(x,y) 的 等 高 线 。 箭 头 表 示 斜 率 ， 和 等 高 线 的 
法 线 平行 ， 从 梯度 的 方向 上 来 看 显然 有 d 1 > 
d2d {1}>d_{2} d1>d2。 


红色 的 线 是 约束 。 如 果 没 有 这 条 约束 ，f(x,y ) 
f(x,y) f(x,y) 的 最 小 值 应 该 会 落 在 最 小 那 圈 等 高 线 内 
部 的 某 一 点 上 。 现 在 加 上 了 约束 ， 正 好 落 在 这 条 红 
线 上 的 点 才 可 能 是 满足 要 求 的 点 。 也 就 是 说 ， 应 该 
是 在 f( x ,y )f(xy) f(x,y) 的 等 高 线 正 好 和 约束 线 g ( 
x,y ) g(xy) g(x,y) 相 切 的 位 置 。 


对 约束 也 求 梯 度 Y g (x,y ) \nabla g(xy) Vg(Xx,y) 
(如 图 中 红色 箭头 所 示 ) ， 可 以 看 出 要 想 让 目标 表 
数 f(x,y)f(xy)f(xy) 的 等 高 线 和 约束 相 切 g(x,y 
) g(Xx,y) g(Xy)， 则 他 们 切 点 的 梯度 一 定 在 一 条 直线 
上 。 也 即 在 最 优化 解 的 时 候 Vf(x,y)= 入 Vg(x， 
y)-Cnablaf(x,y)=A\nabla g(Xx,y)-C 


Vf(Xy)=AVg(Xy)-C， 即 YIf(x,Y)+A(g(x,y) 
-C)]=0, 入 z 上 0O'nabla [f(xy)+A(g(X,y)-C)]=O, 和 z0 
V[If(xy)+A(g(X,y)-cC)]=0 和 =0。 


那么 拉 格 明日 前 效 L(x,y, 入 )=f(x,y) -入 (g( 
x,y)-c)LXynNambda )=f(x,y) - ambda \left ( 
g(x,y) -c Vight ) L(X,y, 入 =f(x,y)- 和 (g(x,y)-c) 在 达到 极 
值 时 与 f( x , y ) f(x,y) f(x,y) 相 等 ， 因 为 F(x,y) 
F(x,y) F(x,y) 达 到 极 值 时 g (x,y ) - cg(xy)-C 
g(x,y)-Cc 总 等 于 零 。 


简单 的 说 ，L ( x , y ,入 ) L(x,yN) L(x,y 入 ) 取 得 最 优 
化 解 的 时 候 ， 也 就 是 L (x,y, 入 )L(xy'A) L(Xx,y 入 ) 
取 极 值 的 时 候 。 此 时 L(x,y ,入 )L(OXyA) L(xyA) 
的 导数 为 0, 即 YL(Ux,y, 和 )=VIf(x,y)- 入 ( 
g(x,y)-c)]=0'nablaL(xyNambda )=\nabla 
Meft [f(xy) -= Mambda left ( g(Xx,y) -c right ) \right ] 
=0 VL(X,y, 入 )=V[f(Xx,y)- 和 A(g(x,y)-c)]=0， 可 以 得 出 f( 
x,y)fxXy)fxXy) 与 g9(x,y)g(0xy) g(xy) 樟 度 共 
线 ， 此 时 就 是 在 条 件 约束 g ( x , y ) g(x,y) g(Xx,y) 
下 ，f(x,y)f(xy)f(xy) 的 最 优化 解 。 


在 支持 向 量 机 模型 ( SVM ) 的 推导 中 ， 很 关键 的 一 
步 就 是 利用 拉 格 朗 日 对 偶 性 ， 将 原 问 题 转化 为 对 偶 


13. 最 大 似 然 估 计 (Maximum 
Likelihood Estimate ) 


最 大 概 似 估 计 (MLE ) 是 一 种 粗略 的 数学 期 望 ， 指 
在 模型 已 定 、 参 数 6 \heta 6 未 知 的 情况 下 ， 通 过 观 
测 数据 估计 未 知 参数 6 \theta 6 的 一 种 思想 或 方法 。 


最 大 似 然 估 计 的 哲学 内 涵 就 是 : 我 们 对 某 个 事件 发 
生 的 概率 未 知 ， 但 我 们 做 了 一 些 实 验 ， 有 过 一 些 对 
这 个 事件 的 经 历 ( 经 验 )， 那 么 我 们 认为 ， 这 个 事件 
的 概率 应 该 是 能 够 与 我 们 做 的 实验 结果 最 吻合 。 当 
然 ， 前 提 是 我 们 做 的 实验 次 数 应 当 足 够 多 。 


举 个 例子 ， 假 设 我 们 要 统计 全 国人 口 的 身高 。 
首先 假设 这 个 身高 服从 服从 正 态 分 布 ， 但 是 该 
分 布 的 均值 。 我 们 没有 人 力 与 物力 去 统计 全 国 
每 个 人 的 身高 ， 但 是 可 以 通过 采样 ， 获 取 部 分 
人 的 身高 ， 然 后 通过 最 大 似 然 估计 来 获取 上 述 
假设 中 的 正 态 分 布 的 均值 。 


Pi 
模 &E 定 。 忆 》 太 市 上 一- 攻 
参数 0 未 知 。。 [ 》 分 布 的 期 纽 儿 未 知 | 这 
概率 与 统计 观 别 灶 所 。。。 记 》 采样 获取 部 分 类 所 
| 
估计 未 知 参数 9 忆 >》 计生 人 闪 的 io ArpE 国 

Mam1TUT Lehal 机 器 学 习 中 也 会 经 常见 到 极 大 似 然 的 影子 。 比如 副 辑 所 特 回归 模型 (LR) ， 
Esti71ate, MALE 核心 就 是 构造 对 数 模 失 函数 后 运用 极 大 似 然 估计 。 ] 
人 沼 舍 ShowMeAi 研 究 中 心 | 
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最 大 似 然 函 数 的 求解 思想 是 : 给 定 样本 取 值 后 ， 该 
样本 最 有 可 能 来 自 参数 6 \theta 6 为 何 值 的 总 体 。 
即 : 寻找 9-MLENbarfhetal {M LE} 6-MLE 使 得 
观测 到 样本 数据 的 可 能 性 最 大 。 

最 大 似 然 函数 估计 值 的 一 般 求 解 步骤 是 : 


写 出 似 然 函 数 L(161,62,… ,on)={ITi= 
1np(xi;61,62,… ,9n)TIIi=1nf(xi 
;061,62,… ,96n)HeftNtheta {11)}， 
vtheta_{2}, cdots, theta_{n}right)=\left 
beginfarray} 他 \prod {fi=1}^A(n PNeft(x 全 
vtheta_{1}, theta_{2}, cdots, theta_{n}ight) 
\A\prod_ {i=1}^(n) Aleft(x_ 位 ;Ntheta {11)， 
vtheta_{2}, \cdots, theta_{n}right) 
\endfarray}right. L(61,02…9n)={TTIi=1np(Xi 
;91;,62……6mTIi=1nf(xi;01,02……6n) 

。 对 似 然 水 数 取 对 数 

。 两 边 同 时 求 导 数 


。 令 导数 为 0 解 出 似 然 方程 


在 机 器 学 习 中 也 会 经 常见 到 极 大 似 然 的 影子 。 比 如 
后 面 的 远 辑 斯 特 回归 模型 (LR ) ， 其 核心 就 是 构造 
对 数 损 失明 数 后 运用 极 大 似 然 估计 。 
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。 图 解 线性 代数 与 算 阵 论 
。 图 解 概率 与 统计 
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全 全 下 全 去 用 概率 论 与 数理 统计 的 方法 研究 信息 、 
言 息 、 通 信 系 统 、 数 据 传输 、 密 码 学 、 数 据 讨 缩 
等 问题 的 应 用 数学 学 科 。 信 息 论 中 包含 的 知识 和 概 
念 在 机 器 学 习 中 也 有 应 用 ， 典 型 的 例子 是 其 核心 思 
想 "“ 精 。 的 应 用 。 


例如 ， 决 策 树 模型 ID3、C4.5 中 是 利用 信息 增益 来 
确定 划分 特征 而 逐步 生长 和 构建 决策 树 的 ; 其 中 ， 


言 息 增益 就 是 基于 信息 论 中 的 灶 。 


1. (Entropy ) 


灶 是 1854 年 由 克 芳 休 斯 提出 的 一 个 用 来 度量 体系 混 
乱 程度 的 单位 ， 并 半 述 了 热力 学 第 二 定律 增 原 
理 : 在 孤立 系统 中 ， 体 系 与 环境 没有 能 量 交 换 ， 体 
系 总 是 目 发 的 向 混乱 度 增 大 的 方向 变化 ， 使 整个 系 
统 的 灶 值 越 来 越 大 。 


灶 越 大 ， 表 征 的 随机 变量 的 不 确定 度 越 大 ， 其 


含有 的 信息 量 越 多 。 


EC00=-》 PnP = > io 二 


随机 变量 天 = {zu za ao] 的 概率 分 布 为 了 (下 = 加] = 有 = 2 


越 大 ， 表 征 的 随机 变量 的 不 确定 度 越 大 ， 其 含有 的 信息 量 越 多 。 
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随机 变量 X X X 可 能 的 取 值 为 {x1,x2,.… ,xn} 
MeftM x_{11),xX {2} dots ,X_{ny NightN {X1,Xx2 .xn 
}， 其 概率 分 布 为 P(X=Xxi)=piPeft(X=x 全 

right) =pP_ 人 二 P(X=xjh)=pi，i=1 ,2,，.. ,ni=1,2， 


\dots, n i=1,2,...,n， 则 随机 变量 X X X 的 粒 定义 为 
H (X)H(X) H(X) : 


H(X)=->i=1nP(xi)logP(xi)= 2i=1 
nP(xi)1logPI(xi)HNeft(XxNright) =- 
\Sum_{i=1} An{PNeft( x 位 right) IogPNIeft( x 全 
xight) } =\Sum_{i=1}^(n{PNeft( x 全 right) rac{1) 
{logPNeft( x_ 全 Night } HGX)=-i=12nP(xi)logP(Xi 
)=i=1 2 nP(xi)logP(xi)1 


2. 联 合 (Joint Entropy ) 


jiogPlz o 功 = Bee | 


一 对 随机 变量 (8 7) 的 联合 分 布 为 P(z, 力 入 


1 
多 联合 箭 的 物理 意义 : 人 交 生 确定 性 。 
中 人 禄 索 | 徽 信 ShowMeAl 研究 中 心 


联合 ， 就 是 度量 一 个 联合 分 布 的 随机 系统 的 不 确 
定 度 。 分 布 为 P( x ,y ) P(xy) P(x,y) 的 一 对 随机 变 
量 (X ,Y)(X,Y) (XY) ,其 联合 精 定义 为 : 


H(X,Y)=->2i=1n2j=1nP(xi,yj)1log 
P(xi,yj)=E[log 1p(x,y)]HNeft(X,Y Night) 
=-\sum _{i=1}^fnjfsum _{j=1A{n{PNeft(x 全 ,y 全 


xight)} IogPAIeft( x_ 全 ,y 分 Yight) ) =ENeft[ \Iog 
rac{1j{pP(xy)} rightl] H(X,Y)=-i=12nj=12nP(xiyj 
)logF(xiyj)=Ellogp(x,y)] 

联合 灼 物理 意义 ， 是 观察 一 个 多 随机 变量 的 随机 


系统 获得 的 信息 量 ， 是 对 二 维 随 机 变量 (X , Y ) 
(X,Y) (X,Y) 不 确定 性 的 度量 。 


3. 条 件 (Conditional 
Entropy ) 

Y YY 的 条 件 箭 是 指 "在 随机 变量 X X X 发 生 的 前 提 
下 ， 随 机 变量 Y Y Y 发 生 新 带 来 的 业 。 , 用 H (Y | 
X ) H(Y |X) H(YIX) 表 示 : 


H(YIX)=-2xyP(xYyY)IogP(YIx)H 
Meft(Y|IX xight) =\Sum_{x,y}AfO{PNeft( xy right) 
logPAeft( y|x Night) } HU(YIX)=-XxyP(xy)logP(y|X) 


ja 

瑟 (YIX) = -> P(z,g)1ogP(ylz) 忆 

2 0 辣 

信息 论 用 
随机 变量 X 发 生 的 前 担 下 ， 随 机 变量 Y 发生 的 条 件 PG | 如 史 


Comaraora/ 
件 箭 的 物理 意义 : 衡量 已 知 随机 变量 的 Y 条 件 下 ， 随 机 变量 Y 的 不 确定 性 。 
| 这 | 沪 售 ShowMehi 研 究 中 心 
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条 件 灼 物理 意义 ， 在 得 知 某 一 确定 信息 的 基础 上 
获取 另外 一 个 信息 时 所 获得 的 信息 量 ， 用 来 衡量 在 
已 知 随机 变量 的 X X X 条 件 下 ， 随 机 变量 Y Y Y 的 
不 确定 性 。 


4. 相 对 (Kullback-Leibler 
divergence ) 


相对 料 信息 论 中 用 来 描述 两 个 概率 分 布 差异 的 
， 叫 作 KL 散 度 、 相 对 灶 、 互 、 交 叉 灶 、 信 息 增 
益 。 对 于 一 个 离散 随机 变量 的 两 个 概率 分 布 PPP 
和 Q Q Q 来 说 ， 它 们 的 相对 粒 定义 为 : 


D(PIIQ)=>i=1nP(xi)logP(xi)QI(Oxi 
) DAeft( PIIQ xight) =\sSum_{i=1}^(n){PNeft( x_ 全 
xight) logNrac{PNIeft( x_ 全 Night) JQNeft( x 全 
xight) } DPIIQ)=i=1>2nP(xi)logQ(xi)P(xi) 


信息 论 


已 表示 真实 分 布 ，Q 霄 示 忆 的 术 合 分 布 D(PII@) 关 DGIIP) 沉 


人 
”相对 入 的 物理 意义 : 用 概率 分 布 0 来 拟 合 真实 分 布 P 时 ， 产 生 的 信息 损耗 。 
| D 这 | 入 售 ShowMeAl 研 究 中 心 | 


注意 : 公式 中 P P P 表 示 真 实 分 布 ，Q Q Q 表 示 P 


P P 的 拟 合 分 布 ， DC(PIIQ)z=D(QIIP)DPIIO) 
*DqlIP) DPIQ) =DCIIP) 


相对 灶 表 示 当 用 概率 分 布 Q Q Q 来 拟 合 真实 分 布 P 
P P 时 7 产生 的 信息 损耗 。 


5. 互 信息 (Mutual 
Information ) 


互信 息 是 信息 论 里 一 种 有 用 的 信息 度量 方式 ， 它 可 
以 看 成 是 一 个 随机 变量 中 包含 的 天 于 另 一 个 随机 变 
量 的 信息 量 ， 或 者 说 是 一 个 随机 变量 由 于 已 知 另 一 
个 随机 变量 而 戌 少 的 不 衣 定 性 。 


互信 息 的 计算 方式 定义 如 下 : 


[1(X,Y)=>2XxEeXxDyeEeYP(x,y)logPI(x 
,yY)P(x)P(Y)Neft(Xx'Y Night) =\Sum_{XNin 久 } 
^AfAsum_{Wn YAO{PNeft( xy Night) }) IogNfrac{P 
Meft( x,y right) PNeft( x xight) PNIeft( y right) } } 
IXY)=xeX2ysYPXyjlogPoOPUY)P(CXy) 


【| 


( 汪汪 ,)iog 无 


2S 


网 胆 sw 


HUtUa/ 
信息 的 物理 意义 : 和 
检索 | 赏 售 ShowMeA1 研 究 中 心 | 


/1D1Dr7m7atom 
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6. 单 用 等 陈 (Useful 
equations ) 


1 ) 条 件 和 、 联 合 粒 灶 之 间 的 天 系 


HU(YIX)=H(X,Y)-H(X)yHNeft( YIX Night) 
=HNeft( X,Yvight) -HNeft( X vight) 
H(YIX)=H(X,Y)-H(X) 


推导 过 程 如 下 : 


H(X,Y)-HCOX)=-2xyp(x,y)Ilog pP(x 
y)+2xp(x)logp(x)=-2x,yp(x,y)Ilog 
pP(x,y)+2Xx(2Yyp(x,y))Iogp(x)= 一 记 
x,yYP(x,y)Ilogp(x,y)+2x,yp(x,y)log 
pP(x)=-2x,yp(x,y)logp(x,y)p(x)= 
2Xx,yYp(x,y)log p(ylx)beginfarray}{ H(X， 


Y)-H(X) AN =-sSum_{x, y} p(Xx, y) Mog P(X, Y)+ 
\Sum_{x} p(X) Mog p(X) NA =、\Ssum_{x, y} pP(x, y) MIog 
p(x, y)+Sum_{xNeftAsum_{y} p(x, YNright) Mog 
p(X) N\ =-\Sum_{x, y} p(x, y) XIog p(x, Y)+\Sum_{Xx, y} 
p(x, y) Mog Pp(X) NA =-\Sum_{Xx, y} P(Xx, y) Mog 
Yractptx y)HPCOO AN =-Sum_{x, y} PC y) log ply 
mid x) \end{farray} H(X,Y)-H(X)=-Xy 
p(x,y)logp(Xx,y)+xp(Xx)logp(X)= 一 二 X,y 
pxy)jlogp(Xy)+ 记 X(yYP(Xy))Jogp()= 一 二 Xy 
p(Xy)logp(Xy)+XyP(Xy)logp(X)= 一 二 Xy 
(xyjlogp(Xx)P(Xy)=-XyP(Xy)logp(y|x) 


芯 


。 第 二 行 推 到 第 三 行 的 依据 是 边缘 分 布 P(x ) 
P(x) P(X) 等 于 联合 分 布 P( x , y ) P(x,y) P(x,y) 
的 和 ; 


。 第 三 行 推 到 第 四 行 的 依据 是 把 公 因 子 logP( 
x ) logP(x) logP(X) 乘 进去 ， 然 后 把 x , y xy X,y 
写 在 一 起 ; 


。 第 四 行 推 到 第 五 行 的 依据 是 : 因为 两 个 G 
\sigma ao 都 有 P ( x , y ) P(x,y) P(x,y)， 故 提取 
公 因 子 P ( x , y ) P(x,y) P(x,y) 放 到 外 边 ， 然 后 
把 里 边 的 ~- (logP(x,y)-logP(x) ) 


-〈log P(Xy) -log PC ) 

- (logP(xy)-logP(x) ) 写成 -log(P(x，,yI) 
/P(Xx) ) -log(PXy) /AP(x ) -Ilog(P(CXy)/ 
EC 


。 第 五 行 推 到 第 六 行 的 依据 是 : P(x,y)=P( 
xj)*P(y|x)PoXy)=PoO ”Polx) 
P(x,y)=P(x)*P(ylx)， 故 P(x,y)/P(x)=P( 
y|x)PXyY) PoO = Pylx) PCXY) 
P(X)=P(ylx)。 


2 ) 条 件 焙 、 联 合 与 互信 息 之 间 的 天 
系 
HU(YIX)=H(Y)-1CX,Y)HNeft( YIX Night) 


=HMeft( Y right) -Neft( X,Y right) 
H(YIX)=H(Y)-1(X,Y) 


推导 过 程 如 下 : 


HUY)-1(X,Y) 
,ypP(x,y)log pp 
站 
(x,yY)P(x)P(CyI) 


=->yply)log p(y)-x 
(x,yY)P(Xx)P(yY)=-2Yy( 
加 (gp 
= 一 2 xyp(x,y)log py 


) -2 xyp(x,y)Ilogp(x,y)p(x)pP(y) = 一 
2Xx,yYp(x,y)logp(x,y)p(x)=-2x,yp 
(x,y)log p(yl|x)=H(YIX)Nbeginfarray} 他 
H(Y)-I(X, Y)N\=-、sum_ {y} pl(y) Nog p(y)>\Ssum_{Xx, y} 
p(x, y) Mog frac{fp(x, y)j{P(x) P(y)} AN =- 
Sum_{yAIeftAsum_{x) p(x, y)Night) XIlog P(Y)- 
Sum_{X, y} p(x, y) Mog rac{fp(x, y)}HP(x) Pty)} AN =- 
Sum_{x, y} px y) iog p(y)->Sum_{x, y} P(X, y) \og 
ractp(x, y)}{P(C P(Y) =-、\Sum_{x, y} P(xX, y) \log 
racfp(x, y)}HP(ON=-ASum_{x, y} PC y) Nog py 
mid x) N\ =H(Y Amid X) \endfarray} H(Y)-|I(X,Y)= 
-2yp(yjlogp(y)- 盖 xyP(X,yjlogp(X)p(y)P(Xy)=-2y 
(2 xp(x,y))logp(y)- 盖 xypP(x,y)logp(X)pP(Y)P(Xxy)= 

-2 xyp(x,y)logp(y)- 盖 xypP(x,y)logp(X)p(y)P(X,y)= 
-X,ypP(X,yjlogp(Xx)P(Xy)= 一 二 Xy 
p(xy)logp(ylx)=H(YIX) 


3 ) 互信 息 的 定义 


国 碍 
| 
末 (YD0 二 三 CP) 一 五 (2 感 了 IE) = 瑟 7) -TXTP) 3 
之 
条 件 交 ”联合 粒 入 条 件 障 嫌 互信 息 呈 


TY) = 瑟 OO+B(CY) -RCRY) 互信 息 的 定义 四 


互信 息 的 物理 意义 : 一 个 随机 变量 中 包含 的 关于 另 一 个 随机 变量 的 信息 量 。 
亿 ) 楼 索 | 微 信 ShowMeAl 研 究 中 心 | 


由 上 方 的 两 个 公 陈 


HU(YIX)=H(Y)-1X,Y)HYIX = H(Y) 
- I(X,Y) H(YIX)=H(Y)-I(X,Y) 


H(YIX)=H(X,Y)-HOXN)NHOYIX) = 
HUXY) - HGX) HOCYIX)=H(X,Y)-H(X) 


可 以 推出 1(X,Y)=H(X)+H(CY)-H(X,Y) 
1XY)= H(X) + HOW HUXY) 
I(X,Y)=H(X)+H(Y)-H(X,Y)， 此 结论 被 多 数 文献 作为 
互信 息 的 定义 


7. 最 硕 模型 ( Max Entropy 
Model ) 


机 器 学 习 领 域 ， 概 率 模 型 学 习 过 程 中 有 一 个 最 大 灶 
原理 ， 即 学 习 概率 模型 时 ， 在 所 有 可 能 的 概率 分 布 
中 ， 灶 最 大 的 模型 是 最 好 的 模型 。 


通常 用 约束 条 件 来 确定 模型 的 集合 ， 所 以 最 大 灶 模 
型 原理 也 可 以 表述 为 : 在 满足 约束 条 件 的 模型 集合 
中 ， 选 取 灶 最 大 的 模型 。 


前 面 我们 知道 ， 若 随机 变量 X X X 的 概率 分 布 是 P( 
xi) PNleft(x_ 全 Yight) P(xi)， 其 灼 定义 如 下 : 


H(X)=->2i=1nP(xi)logP(xi)= 2i=1 
nP(xi)1logPI(xi)HNeft(XxNright) =- 
\Sum_{i=1} An{PNeft( x 位 right) IogPNIeft( x 全 
xight) } =\Sum_{i=1}^(n{PNeft( x 全 right) rac{1) 
{logPNeft( x_ 全 Night } HGX)=-i=12nP(xi)logP(Xi 
)=i=1 2 nP(xi)logP(xi)1 


。 
琶 0 三 瑟 CO ETogl2l 


交 服从 均匀 分 布 时 ， 右 边 的 等 号 成 立 , 炳 最 大 昌 


Max Eptropy 大 闹 原理 : 学 习 概 率 模型 时 ， 在 所 有 可 能 的 概率 分 布 中 ， 最 大 的 模型 是 
hfyode/ 最 好 的 模型 -- 最 大 和 模 型 


| 人 补 索 | 徽 信 ShowMeAl 研 究 中 心 | 


粒 满足 下 列 不 等 式 : 0<H(X)<loglXloeqH 
Meft( X \right) leq logNleft| X Yight| 0<H(X)<log|X| 


。|X ||X| XI 是 X X X 的 取 值 个 数 

当 且 仅 当 X X X 的 分 布 是 均匀 分 布 时 ， 右 边 的 
等 号 成 立 ; 也 就 是 说 ， 当 X X X 服 从 均匀 分 布 
时 ， 类 最 大 。 


直观 地 看 ， 最 辜 原理 认为 : 


。 要 选择 概率 模型 ， 首 先 必须 满足 已 有 的 事实 ， 
即 约束 条 件 ; 

。 在 没有 更 多 信息 的 情况 下 ， 那 些 不 确定 的 部 分 
都 是 “等 可 能 的 。 。 最 大 粒 原理 通过 灶 的 最 大 
化 来 表示 等 可 能 性 ; “等 可 能 。 不 易 操作 ， 而 
灶 则 是 一 个 可 优化 的 指标 。 
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。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 
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优化 
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1. 最 优化 理论 COptimality 


Theory ) 


我 们 在 做 事 过 程 中 ， 会 希望 以 最 小 的 代价 取得 最 大 
的 收益 。 在 解决 一 些 工 程 问 题 时 ， 人 们 常会 遇 到 多 
种 因素 交织 在 一 起 与 决策 目标 相互 影响 的 情况 ; 我 
们 会 使 用 最 优化 数学 理论 来 应 对 这 一 挑战 ， 而 大 家 
了 解 的 线性 规划 也 是 最 早 的 最 优化 方法 之 一 。 


St. 大 (X) = 0 ”一 -一 > 等 式 约束 
gj(x) 入 0 ”一 > 不 等 式 约束 


微 积 人 < 最 优化 理论 


OPt1P1zatom 


es ss | 局 这 佑 信 ShowMehl 研 究 中 心 
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李 航 博士 的 《统计 学 习 方 法 》 将 机 器 学 习 总 结 为 : 
机 器 学 习 = 模型 + 策略 + 算法 。 而 公式 中 的 算法 指 
的 就 是 优化 算法 。 大 家 在 算法 求职 面试 过 程 中 ， 在 
项 目 模型 效果 调 优 过 程 中 ， 都 经 常会 遇 到 优化 算 


法 ， 它 是 学 习 Al 必 备 的 数学 知识 。 


2. 最 优化 问题 的 效 学 描述 


最 优化 的 基本 数学 模型 如 下 公 陈 所 示 : 


min f(x) st hi(x)=0gj(x)<0 
\begin{farray}{ 仙 min & fAmathbf{x)) Ntext { st. } & 
h_ 他 人 Amathbf{x))=0N\&g 全 Amathbf{x)) leqslant 0 
\end{farray} min s.t. f(X)hi(X)=0gj(X)<O 


它 有 三 个 基本 和 要素 , 即 : 


。 设计 变量 : x \bold{x} x 是 一 个 实数 域 范 围 内 的 
n n n 维 向 量 ， 被 称 为 决策 变量 或 问题 的 解 ; 


。 目标 函数 : f(x )f(x) f(x) 为 目标 子 数 ; 


。 约 束 条 件 : hi(x)=0h 全 left(x Vight) =0 
hi(x)=0 称 为 等 式 约 束 ，gj(x)<0g 他 Neft(x 
vight) \ledq 0 gj(X)<0 为 不 等 式 约 束 ，i ,jj=0 ,1 
,2 .1j=0.12Adotsij=0,1.2..， 


3. 凸 集 与 凸 集 分 多 定理 


1 ) 凸 集 (Convex Set ) 


实数 域 RR R 上 (或 复数 C C C 上 ) 的 向 量 空间 
中 ， 如 果 集 合 S S S 中 任 两 点 的 连 线 上 的 点 都 在 S 
S S 内 ， 则 称 集合 S S S 为 凸 集 。 


量 


se TU/ 罗 
有 世 
微 积 分 > 最 优化 理论 外 多 有 


凸 集 非 凸 


Eee 实数 域 R 上 (或 复数 C 上 ) 的 向 量 空 间 中 ， 如 果 集合 s 中 任 两 点 的 连 线 上 的 
都 在 S 内 ， 则 称 集合 S 为 凸 集 。 
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设 集合 S c Rn S\subset R^(n} ScRn， 若 对 于 任 
意 两 点 x,y ESx,yNinSxyeS, 及 实数 入 (0< 入 


<1)NMambda(0O \ledq Mambda \eq 1) 和 (0< 和 <1) 都 
有 :入 x+(1- 入 )yesSambdax+(1-ambda) y 
in S 和 x+(1-A)yeS 则 称 集合 S \mathrm{S} S 为 凸 


集 。 


2 ) 超 平面 和 半空 间 


实际 上 ， 二 维 空间 的 超 平面 就 是 一 条 线 ( 可 以 使 曲 
线 ) ， 三 维 空间 的 超 平面 就 是 一 个 面 ( 可 以 是 曲 
面 ) 。 其 数学 表达 陈 如 下 : 


超 平面 : H={XxeRnlal+a2+...+an=b|} 
H=\IeftMx Xin RA{n} mid a_{1)}+a_{2}+Mdots+a_{n} 
=bvrighty H={xeRnla1+a2+...+an=b]} 


半空 间 : H+={xeRnla1+a2+..+an>b 
} H^A{+}=MeftMx Xin RA{n mid a_{1+a_{2}+dots 
+a_{fnl \geq bxrightNy H+={Xxe Rnla1+a2+...+an>b} 


3 ) 凸 集 分 离 定 理 (Hyperplane 
Separation Theorem ) 

所 谓 两 个 凸 集 分 离 ， 直 观 地 看 是 指 两 个 凸 集合 没 
交叉 和 重合 的 部 分 ， 因 此 可 以 用 一 张 超 平面 将 两 者 
隔 在 两 边 ， 如 图 所 示 。 
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[penp/ame Sepa 二 两 个 凸 集 分 离 : 两 个 凸 集合 没有 交叉 和 重合 的 部 分 ， 因 此 可 以 用 一 张 让 平 盏 


haie 
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4 ) 凸 函 数 (Convex Function ) 


凸 浮 数 就 是 一 个 定义 域 在 某 个 向 量 空间 的 凸 子 集 C 
C C 上 的 实 值 冰 数 。 


凸 函数 的 几何 含义 是 : 
函数 任意 两 点 2 和 x2 之 间 的 部 介 ， 芝 7 四 
位 于 该 xx 的 下 方 或 其 曲线 任 一 点 “oo 
切线 上 方 Jo 
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数学 定义 为 : 对 于 函数 f( x )f(x) fx)， 如 果 其 定义 
域 C C C 是 凸 的 ， 且 对 于 Yx1,x2 ecC 


VXx_{1}x {2)ECVvx1x2eCoOo<st<s10edqted 1 
0O<t<1 ,有 : fltx1+(1-t)x2)<tf(x1)+(1 
-t)f(x2)Aeft(tx {f1)+eft(1-txright x {2)} 
xight) eqt Aleft( x_{11}) Night) +Neft( 1- tright) f 
Meft( x_{2) right) ftx1+(1-t)X2)<tf(X1)+(1-tif(X2) ， 
则 ff( x )f(x) f(X) 是 凸 函 数 。 


注 : 如 果 一 个 冰 数 是 凸 数 ， 则 其 局 部 最 优点 束 是 
它 的 全 局 最 优点 。 这 个 性 质 在 机 器 学 习 算法 优化 中 
有 很 重要 的 应 用 ， 因 为 机 器 学 习 模 型 最 后 融 是 在 求 
肝 个 函数 的 全 局 最 优点 ， 一 旦 证 明 该 永 数 ( 机 器 学 
习 里 面 叫 "“ 损 失 曾 数 ”) 是 凸 闻 数 ， 那 相当 于 我 们 只 
用 求 它 的 局 部 最 优点 了 。 


4. 梯 度 下 降 算法 (Gradient 
Descent Algorithm ) 


1 ) 背景 


计算 机 在 运用 夫 代 法 做 数值 计算 (比如 求解 条 个 方 
程 组 的 解 ) 时 ， 只 要 误差 能 够 收 仅 ， 计 算 机 最 后 经 
过 一 定 次 数 的 迭代 后 是 可 以 给 出 一 个 跟 真 实 解 很 接 
近 的 结果 的 。 


其 中 有 一 个 非常 核心 的 问题 ， 如 果 我 们 得 到 的 
目标 冰 数 是 非 线性 的 情况 下 ， 按 照 哪个 方向 返 
代 求 解 误 郑 的 收敛 速度 会 最 快 呢 ? 答案 咒 是 治 
梯度 方 回 。 


这 就 引入 了 我 们 的 梯度 下 降 法 。 


2 ) 梯度 下 降 法 


在 多 元 微分 学 中 ， 梯 度 就 是 函数 的 导数 方向 。 梯 度 
法 是 求解 无 约束 多 元 函数 极 值 最 早 的 数值 方法 ， 很 
多 机 器 学 习 的 常用 算法 都 是 以 它 作 为 算法 框 训 ， 进 
行 改 进而 导出 更 为 复杂 的 优化 方法 。 


在 求解 目标 函数 f ( x ) f(x) f(X) 的 最 小 值 时 ， 为 求 得 
目标 函数 的 一 个 凸 函数 ， 在 最 优化 方法 中 被 表示 为 : 


min f(x)xminf(x) minf(X) 


加 马 

min F(x) 一 -一 > 求解 目标 约束 /xz) 的 最 小 值 2 

| 全 一 | 

本 沿 梯度 方向 和 代 求解 误差 的 收敛 速度 最 忆 1 Jr 全 
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沿 着 红色 简 头 ( 负 梯度 方向 ) 走 ， 依 次 到 xx ( 送 代 YN、 总 

mn 次 ) 可 最 快 达到 极 小 人 点 SSTTAoenm 图 

Gaaferit Descerz 梯度 法 是 求解 元 约束 多 元 函数 极 值 最 早 的 数值 方法 ， 很 多 机 器 学 习 的 常用 算 
法 都 是 以 它 作 为 框架 进行 改进 ， 导 出 更 为 化 广 


目标 函数 在 x x x 上 的 变化 率 。 在 多 元 的 情况 下 ， 目 
标 函 数 f( x , y , z ) f(x, y, z) f(x,y,Z) 在 某 点 的 梯度 
grad f(x,y,zZz)=(ofox,ofoy,ofoz) 
operatorname{gradjf(x, y, Z)=\Ieft(fracfpartial 冉 
人 partial xj, fracfpartial ff 人 partial yj, racfpartial 人 
fpartial zjright) gradf(x,y,z)=(9xof,oyof,ozof) 是 一 个 

各 个 分 量 的 偏 导数 构成 的 向 量 ， 负 梯度 方向 是 f( 
x,y ,z )f(x, y, z) f(x,y,Z) 减 小 最 快 的 方向 。 


如 上 图 所 示 ， 当 需要 求 f( x ) f(x) f(X) 的 最 小 值 时 
(机 器 学 习 中 的 f( x )f(x) f(x) 一 般 就 是 损失 函数 ， 
而 我 们 的 目标 就 是 希望 损失 函数 最 小 化 ) ， 我 们 就 
可 以 先 任意 选取 一 个 函数 的 初始 点 X0 x_{0} x0 (三 

维 情况 就 是 (Xx0,y0,z0)Neft(x_ {0},y {0)}， 
z_{0}Vvight) (x0,y0,z0) ) ， 让 其 沿 着 图 中 红色 箭头 
( 负 梯 度 方向 ) 走 ， 依 次 到 $x_{1}, x_{2}, Ndots， 
x_{n} $ (迭代 n 次 ) 这 样 可 最 快 达 到 极 小 值 点 。 


3 ) 梯度 下 降 法 的 过 程 


输入 : 目标 函数 f( x )f(x) fx)， 梯 度 医 数 g ( x ) = 
grad f(Xx) g(X)=\operatorname{grad} f(X) 
g(x)=gradf(x)， 计 算 精 度 gs \varepsilon s。 


输出 : f( x ) f(x) f(Xx) 的 极 小 值 点 x * XA{ 和 分 xx 


1、 任 取 取 初始 值 x0 x_ {0} x0， 置 k = 0 k=0 
k=0 ; 


2、 计 算 f(xk)fAeft(x_{k}vight) f(xk) ; 


3、 计 算 梯度 gk = grad f(xk)g{k}= 
operatorname{grad) fleft(x_{kjNright) gk 
=gradf(xk)， 当 |gkll<sxeftg_ {kjight< 
vvarepsilon llgkll<s 时 停止 和 代 ， 令 x*=Xk 
X^ 作 =X_{k} xx*=Xk ; 


4、 否 则 令 Pk= -gkP {kj=-g {kj Pk=-gk ， 
求 和 kambda {k} Ak 使 f(xk+1)=minf(x 
k+A 和 AkPk) Fleft(x {k+ljvright=vmin1f 
Meft(x_{k}j+ambda {k} P_{kjvight) f(xk+1 
)=minf(xk+AkPk) ， 


5、 置 Xk+1=Xxk+A 和 AkPKx{k+fi=x {k}+ 
Mambda _{k} P_{k} xk+1=xk+AkPk， 计 算 f(xk 
+1)fAleft(x {k+1}ight) f(xk+1)， 当 |‖f(xk + 
1)-f(xk)l<sxeftNeft(x {k+1yright)-f 
Meft(x_{kjright)Nightl<\varepsilon |f(Xk+1 
)-f(Xxk)ll<s 或 外 xk+1-Xxkll<sNeftNx {k+1)}- 


x_{kjvightj<\varepsilon |lxk+1-xkll<s 时 ， 停 止 
迭代， 令 Xxr=Xk+1X^ 人 (=X {k+1}y xx=Xk+1 


。 6、 否则 ,， 置 k=k+1k=k+l k=k+1， 转 3。 


5.[ 逢 机 梯度 下 降 算法 
( Stochastic Gradient 
Descent, SGD ) 


在 梯度 下 降 法 的 迭代 中 ， 除 了 梯度 值 本 身 的 影响 
外 ， 另 外 一 个 很 重要 的 参数 是 每 一 次 取 的 步 长 ， 而 
且 这 个 参数 的 选择 非常 重要 : 


致 发 散 ; 
。 步 长 取 大 小， 算法 的 收敛 速度 又 会 明显 降低 。 


我 们 和 希 于 找到 一 种 比较 好 的 方法 能 够 平衡 步 长 。 
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人 > 
损失 一 小 部 分 精确 度 、 增 加 一 定数 量 的 总 
和 送 代 次 数 , 换取 了 总 体 优化 效率 的 棵 升 。 


Stochnastje Grace 批量 宰 度 下 降 法 每 次 适 代 都 会 计算 训练 集中 所 有 的 数据 ， 而 随 礼 宰 度 下 降 法 
和 生 >2 了 。，。 每 次 送 代 只 是 陆 机 取 了 训练 集中 的 一 部 分 样本 数 和 


随机 梯度 下 降 法 引进 了 随机 样本 抽取 方式 ， 并 提供 
了 一 种 动态 步 长 取 值 策略 。 目 的 就 是 又 要 优化 精 
度 ， 又 要 满足 收敛 速度 。 


也 就 是 说 ， 上 面 的 批量 梯度 下 降 法 每 次 色 代 时 
都 会 计算 训练 集中 所 有 的 数据 ， 而 随机 梯度 下 
降 法 每 次 迁 代 只 是 随机 取 了 训练 集中 的 一 部 分 
样本 数据 进行 梯度 计算 ， 这 样 做 最 大 的 好 处 是 
可 以 避免 有 时 候 陷 入 局 部 极 小 值 的 情况 (因为 
批量 梯度 下 降 法 每 次 都 使 用 全 部 数据 ， 一 旦 到 
了 某 个 局 部 极 小 值 点 可 能 就 停止 更 新 了 ; 而 随 
机 梯度 法 由 于 每 次 都 是 随机 取 部 分 数据 ， 所 以 


就 算 局 部 极 小 值 点 ， 在 下 一 步 也 还 是 可 以 跳 
ma 地 下 


两 者 的 天 系 可 以 这 样 理解 : 随机 梯度 下 降 方法 以 损 
失 很 小 的 一 部 分 精确 度 和 增加 一 定数 量 的 友 代 次 数 
为 代价 ， 换 取 了 总 体 的 优化 效率 的 提升 。 增 加 的 适 
代 次 数 远 远 小 于 样本 的 数量 。 


6. 牛 顿 法 ( Newton's 
Method ) 


1 ) 牛顿 法 介绍 


牛顿 法 也 是 求解 无 约束 最 优化 问题 常用 的 方法 ， 最 
大 的 优点 是 收敛 速度 快 。 从 本 质 上 去 看 ， 和 牛顿 法 是 
二 阶 收 你 ， 梯 度 下 降 是 一 阶 收 你 ， 所 以 牛顿 法 融 更 
快 。 


| 咎 频 法 的 迁 代 示意 图 
区 
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顿 法 是 求解 元 约束 最 优化 问题 常用 的 方法 ， 最 大 优点 是 效 侣 过度 估 一 牛 
法 是 二 阶 收敛 ， 梯 度 下 降 是 一 阶 收敛 ,月 
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通俗 地 说 ， 比 如 你 想 找 一 条 最 短 的 路 径 走 到 一 个 贫 
地 的 最 底部 。 梯 度 下 降 法 每 次 只 从 你 当前 所 处 位 置 
选 一 个 坡度 最 大 的 方向 走 一 步 ; 牛顿 法 在 选择 方向 
时 ， 不 仅 会 考虑 坡度 是 否 够 大 ， 还 会 考虑 你 走 了 一 
步 之 后 ， 坡 度 是 否 会 变 得 更 大 。 所 以 ， 可 以 说 牛顿 
法 比 梯度 下 降 法 看 得 更 远 一 点 ， 能 更 快 地 走 到 最 搬 


部 。 


或 者 从 几何 上 说 ， 和 牛顿 法 就 是 用 一 个 二 次 曲面 去 拟 
合 你 当前 所 处 位 置 的 局 部 曲面 ， 而 梯度 下 降 法 是 用 
一 个 平面 去 拟 合 当前 的 局 部 曲面 ， 通 常情 况 下 ， 二 
次 曲面 的 拟 合 会 比 平面 更 好 ， 所 以 牛顿 法 选择 的 下 
降 路 径 会 更 符合 真实 的 最 优 下 降 路 径 。 


2 ) 牛顿 法 的 推导 


将 目标 函数 f( x )f(x) f(X) 在 x k x_{k} xk 处 进行 二 阶 
泰勒 展开 ， 可 得 : 


f(X)=f(xk)+f(xk)(xX-Xxk)+12f(xKI) 
(X--Xk)2f(x)=f 
Meft(x_{kjNright)+fAAprimeANleft(x_{kjNight)Neft(X- 
X_{kjright)+\frac{11{2}) fprime 
primejNeft(x_{kyright)Nleft(x-x_{kjright^(2} 
f(X)=f(XK)+f(Xk)(X--Xk)+21f(Xk)(X--Xk)2 


。 目标 闻 数 f( x ) f(x) f(xX) 有 极 值 的 必要 条 件 ， 是 
在 极 值 点 处 一 阶 导 数 为 0, 即 :ff (x)=0 
fprime}(x)=0f(xX)=0 


。 所以， 对 上 面 的 展开 式 两 边 同 时 求 导 (注意 x 
Xx X 才 是 变量 ，x k x_{k} xk 是 常量 = 


\Rightarrow 之 ff (XkK) 


f^A 人 primejNeft(x_{kjNrightb f(xk) ，f(Xxk) 
fAfprime \primeNeft(x_{kjvightb f(xk) 都 是 党 
量 ) ,并 令 f(x) = 0fAf\primel(O0=0f(x)=0 可 
得 :f'(xk)+f'(xk)(x-Xxk)=0 
f^AprimeNeft(x_{kjrighb+fAAprime 
primeNleft(x_{kyright)Nleft(x-x_{kyright)=0Of 
'〈(Xk)+f"(XK)(X-Xk)=0 


。 即 :Xx=Xxk-f'(xk)f…(Xxk)Xx=x {k- 
racffAfprimeNeft(x_{kyright)ifAAprime 
primeNeft(x_{kyNright)} X=Xk--f(Xk)f(Xk) 


。 于 是 可 以 构造 如 下 的 迭代 公式 :xk+1=xk=-f 
(xk)f…(xk)x fk+1=x {k)- 
racffAfprimeNeft(x_{kyright)ifAAprime 
primeNeft(x_{kyright)} Xk+1T=Xk-f(Xk)f(Xk) 


。 这 样 ， 就 可 以 利用 该 迁 代 式 依 次 产生 的 序列 { x 
1,X2，,，...,，XklyeftMx {1), x {2}, NMdots， 
x_{kjvightN {x1,x2,..…,xk} 才 逐渐 逼近 f( x )f(X) 
f(X) 的 极 小 值 点 了 。 


牛顿 法 的 和 返 代 如 图 : 


上 面 讨 论 的 是 2 维 情况 ， 高 维 情况 的 牛顿 欠 代 公 陈 


四 。 
和 谍 ， 


xn+1=xn-[Hf(xn)]-1VvVf(xn),n>0 
mathbf{x})_{n+1}=\mathbf{(x)_{n}-Neft[H 上 
MeftAmathbf{x) {nyright)rightlj^(-1T} nabla 1f 
MeftAmathbf{x} _ {njright), n \Xgeq 0 xn+1=Xxn-=-[Hf(xn 
)]-1Vf(xn),nzO 


Vvf'nablaf Vf 是 的 梯度 , 即 : Vf=[ofox1i 
ofox2:ofoxN]xnablaf=\leftNbegin{farray) 
{cl xfracf\partial fpartial x_{1) NANXracfpartial 
f 人 人 partial x_{2}} ANvdots N racf\partial 人 站 
fpartial x_{N}} \endfarrayjvightl Vf=| 川 ax1af 
9x29f9xNaf|| 咱 


H H H 是 Hessen 答 阵 , 即 : H(f)=[92f9x 
1292fox1ox2…o2fox1oxno2fox 
2o9x1o2fox22…o2fox20oxni::… :0 
2foxnox1o2foxnox2…o92foxn2 |] 
H 人 =leftbegin{farray}{fcccc Yracf\partial^{(2]} 
f 们 人 partial x_{1}^A(2 & racf(partial^A{2) 肛 

人 partial x_{T} partial x_{2}} & cdots & 
racf\partial^{2) fpartial x_{1} partial x_{n)}} 
N racfpartial^{2) 1 人 partial x_{2}) partial 


X_{1) & xfracfpartial^{2} 1 人 partial x_{2}^{(2)}) 
&\cdots & racf\partial^{(2} fpartial x_{2]} 
partial x_{n}j}Nvdots & \vdots & \ddots & 
dots N xfracf\partial^{2} ff 人 partial x_{n) 
partial x_{1)) & Xracf\partial^{(2} ff 人 partial 
X_{n} \partial x_{2}} & \cdots & 
racf\partial^{2) 1 人 partial x_{n}^{2}} 
\endfarray}vight] H(f)=|| 川 lax1232f9x2a9x192f 
:OXnOXx1o92fox1oXx202fo9Xx22092f:o9xnoXx2092f………… 
oOX1 9xn32f9x29xna2f9xn292f| | 


3 ) 牛顿 法 的 过 程 


1、 给 定 初 值 x 0 x_{0} x0 和 精度 间 值 8 
varepsilon 8， 并 令 k = 0 k=0 k=0 ; 


2、 计 算 xkx {k} xk 和 HkH _{k} Hk 


若 |gkll<slefhNg {k}vight<\varepsilon 
lgkll<s 则 停止 迭代 ; 否则 确定 搜索 方向 : d k = - 
HKk-1:gkd{k=-H_ {ky^(-1T cdot g_{k) dk= 
-Hk-1.gk ; 


4、 计 算 新 的 迭代 点 :Xxk+1=xk+dkx fk 


+1}=x_{kj+d_{kl xk+1=xk+dk] ; 


@ 5D、 令 K = K 十 1 K=kK+1 K=kK+1 7 转 至 2。 


7. 阻 尼 牛顿 法 ( Damped 
Newton s Method  ) 


1 ) 背景 


牛顿 法 的 迭代 公 陈 中 没有 步 长 因子 ， 是 定 步 长 和 锡 
代 。 对 于 非 二 次 型 目标 冰 数 ， 有 时 候 会 出 现 的 情 
部， 这 表明 ， 原 始 牛顿 法 不 能 保证 函数 值 稳定 的 下 
降 。 在 严重 的 情况 下 甚至 会 造成 夯 列 发 散 而 导致 计 
算 失败 。 


二 忆 
| ESESESESC 
入 一 min FT 十 Adp) 名 

[ 瑟 

的 芭 :7 和 。 阳 尼 咎 类 法 每 次 适 代 的 方向 仍然 是 记 区 
ze 但 每 次 还 代 人 上方 做 狼人 忆 

机 索 ， 寻 求 最 优 的 步 长 因 于 叉 

全 


原始 牛顿 法 不 能 保证 函数 值 稳定 下 降 ， 严 重 时 甚至 会 造成 序列 发 散 而 导致 计 


算 和 失败 。 阻 尼 牛 顿 法 即 为 消除 这 一 浆 端 。 [Ga | 从 全 ShowMeAl 研 究 中 心 | 
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为 消除 这 一 称病 ， 人 们 又 提出 阻尼 牛顿 法 。 阻 尼 牛 
顿 法 每 次 色 代 的 方向 仍然 是 x k x_{k} xk， 但 每 次 迭 
代 会 治 此 方向 做 一 维 搜索 ， 寻 求 最 优 的 步 长 因子 入 k 


Mambda {k} 和 Ak , 即 : 


入 k=minf (Xxk+A 入 dk)xambda {k}= 
operatorname{minfNeft(x_{k}+\lambda qd _{kyNight) 
入 k=minf(Xk+A 和 dk) 


2 ) 阻尼 牛顿 法 算法 过 程 


1、 给 定 初 值 x 0 x_{0} x0 和 精度 阔 值 8 
varepsilon 8 ， 并 令 k = 0 k=0 k=0 ; 


2、 计 算 gkg{kljgk(Cf(x)f(x)f) 在 Xk 
X_{k} xk 处 的 梯度 值 ) 和 HkH_{kl Hk ; 


若 |gkll<slefhNg {k}vight<\varepsilon 
lgkll<s 则 停止 迭代 ; 否则 确定 搜索 方向 : d k = - 
HKk-1:gkd{k=-H_ {k^(-1T cdot g_{k) dk= 
-Hk-1.gk ; 


4、 利 用 dk=-Hk-1:gkdf{k=-H {k^{-1) 
\cdot g_{k] dk=-Hk-1:gk 得 到 步 长 入 k 
Mambda {ky Ak ,并 令 xk+1=xk+ 和 kdk 
x_{k+1j=x_{k+ambda {kj d fk xk+1=xk+Nk 
dk ; 


e 5D、 令 Kk = K 十 1 K=K+1 k=kK+1 7 转 至 2。 


8. 拟 牛顿 法 (Quasi-Newton 
Method ) 


1 ) 概述 


由 于 牛顿 法 每 一 步 都 要 求解 目标 胃 数 的 Hessen 答 阵 
的 逆 和 矩 阵 ， 计 算 量 比较 大 〈 求 和 矩 阵 的 逆 运 算 量 比较 
大 ) ， 因 此 提出 一 种 改进 方法 ， 即 通过 正定 和 矩阵 近 
似 代替 Hessen 答 阵 的 逆 德 阵 ， 简 化 这 一 计算 过 程 ， 
改进 后 的 方法 称 为 拟 牛 顿 法 。 


2 ) 拟 牛 顿 法 的 推导 


先 将 目标 函数 在 x k + 1 x_{k+1} xk+1 处 展开 : f(x 
)=f(Xk+1)+f(xk+1)(xX-Xxk+1)+12f 
上 (XKk+1)(x-Xxk+1)2fX)=fleft(x {k 
+1Nright)+fA(AprimejNeft(x_{k+1right)Neft(X-Xx_{k 
+1Nright)+xfrac{1){2) fAAprime \primeJNeft(x_{k 
+1Nright)NMeft(x-x_{k+1right)^(2} f(X)=f(Xk+1)+f(XK 
+1)(X-XKk+1)+21f"(Xk+1)(X-XKk+1)2 


。 两 边 同 时 取 梯 度 ， 得 :人 (xx)=f(xk+1)+f 
(xxk+1)(xXx-Xxk+1T)fAAprime) 
(X)=f^Af(primejNeft(x_{k+TyNright)+fAprime 
primejNeft(x_{k+1right)Neft(x-Xx_{k+1yNright) f 
'(X)=f(XK+1)+f(XK+1T)(X-Xk+1) 


。 取 上 式 中 的 x = xk x=x_{k} x=xk， 得 :f'(xk) 
=f'(xk+1)+f…(xk+1)(x-xk+1l) 
fprimeANeft(x_{kright)=fAAprimeJNeft(x_{k 
+1Nright)+fAAprime \primeNeft(x_{k 
+1Nright)Meft(x-Xx_{k+1right)f(Xk)=f(XKk+1T)H+f 
'〈(Xk+1)(X-Xk+1 ) 


。 即 :gk+1-gk=Hk+1:(xk+1-xk) 
g_{k+1)}-g_{kj=H_{k+1) cdoteft(x_{k+1)}- 
X_{kjvight) gk+1-gk=Hk+1:(Xk+1-Xk) 


。 可 得 : Hk-1:(gk+1-gk)=xk+1=-x 
k H_{k}^A{-1) AcdotNeft(g_{k+1}- 
g_{kjvight)=x_{k+1}-x_{k} HKk-1'(gk+1-gk)=Xk 
+1--XK 


上 面 这 个 式 子 称 为 " 拟 牛 顿 条 件 "， 由 它 来 对 Hessen 
和 窍 阵 做 约束 。 
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